圆融七星联手曹操出行,在亚运会期间提供数百辆自动驾驶车辆
06-18
*转载文章不代表本站观点。
本文来自微信公众号“硅基研究会”(gh_adf2e)作者:何律衡/戴波 去年,AI圈发生了两件大事。
按照时间顺序,第一个是谷歌长期以来形成的谷歌大脑的“处女作”的发布——一个可以识别猫的深度学习网络“谷歌猫”,识别准确度为74.8%,比上一年著名图像识别竞赛ImageNet获胜算法的74%提高了0.8个百分点。
但谷歌的辉煌岁月只持续了几个月。
今年12月,最新一届ImageNet的获奖者揭晓。
深度学习大神、Hinton及其弟子利用卷积神经网络AlexNet将识别准确率提高到84%,从而开启了未来十年的AI革命。
谷歌猫被埋葬在历史的尘埃中。
Hinton和两位学生,震惊业界的不仅仅是ImageNet模型本身。
这个神经网络需要数万张图像和总共 petaflops 的浮点运算来训练,在一周的训练过程中仅使用了 4 个 Nvidia Geforce GTX。
作为参考,Google Cat 使用了 10,000 张图像、0 个 CPU 和 1 台计算机 [1]。
传闻谷歌今年也秘密参加了比赛,其震惊直接体现在其后续动作上:谷歌在斥资数万美元收购Hinton团队的同时,立即下单了大量GPU来自 Nvidia 的人工智能。
智能训练,同时微软、Facebook等巨头也在“扫货”。
英伟达成为最大赢家,其股价在接下来的10年里翻了一番。
一个帝国诞生了。
但帝国上空却渐渐聚集了两片乌云。
采购英伟达产品的谷歌,三年后凭借AlphaGo惊艳亮相,并在2016年击败了人类冠军柯洁。
敏锐的人们发现,驱动AlphaGo的芯片不再是英伟达的GPU,而是谷歌自研的TPU芯片。
三年后,类似的故事再次发生。
曾经被黄仁勋视为标杆客户的特斯拉也告别了英伟达GPU。
它首先推出了以NPU为核心的FSD汽车芯片,随后又拿出了用于构建AI训练集群的D1芯片——这意味着英伟达已经先后失去了两个AI时代最重要的客户。
到2018年,全球IT周期已进入下行阶段。
各大云计算公司纷纷削减数据中心的GPU采购预算。
区块链挖矿风潮也逐渐降温。
另外,美国对中国芯片的禁令,导致A/H等高端产品无法销往该国。
显卡和NVIDIA库存激增,股价较最高点下跌2/3。
ChatGPT 年底问世,GPU 再次被抢作大型模型“炼金术”的燃料。
英伟达得到了喘息的机会,但第三个乌云随之而来:4月18日,著名科技媒体The Information爆料:本轮AI浪潮的始作俑者微软正在秘密研发自己的AI芯片[2]。
这款芯片名为Athena,由台积电制造,采用先进的5nm工艺。
微软研发团队人数接近10万人。
显然,这款芯片的目标是取代昂贵的A/H,为OpenAI提供算力引擎,并最终通过微软的Azure云服务抢占Nvidia的蛋糕。
微软目前是Nvidia H的最大采购商,甚至有传言称将“覆盖”H的全年产能。
微软的分手信号无疑是晴天霹雳。
要知道,即使是在英特尔最黑暗的日子里,它的客户也没有一个“敢”自己制造CPU芯片(苹果除外,但苹果不卖给外部各方)。
尽管NVIDIA目前以GPU+NVlink+CUDA垄断了90%的AI算力市场,但帝国的第一道裂缝已经出现。
01 GPU并不是为AI而生的。
从一开始,GPU就不是为AI而生的。
2019年10月,英伟达发布了GeForce,这是一款基于台积电纳米技术工艺、集成了数万个晶体管的图形处理芯片。
NVIDIA从图形处理单元中提取了缩写词“GPU”,并将GeForce称为“世界上第一个GPU”,巧妙地定义了GPU的新类别,并至今占据着该术语用户的心智。
此时,人工智能已经沉寂多年,尤其是在深度神经网络领域。
未来的图灵奖获得者如 Geoffrey Hinton 和 Yann LeCun 还坐在学术席上,他们绝不会想到自己的职业生涯会被一款原本为游戏玩家开发的 GPU 彻底改变。
GPU是为谁而生的?图像。
更准确地说,它的诞生是为了将CPU从图像显示的辛苦工作中解放出来。
图像显示的基本原理是将每一帧图像划分为像素,然后进行顶点处理、图元处理、光栅化、片段处理、像素操作等多个渲染过程,最后显示在屏幕上。
。
从像素到图像的处理过程 来源:图形大全 为什么说这是辛苦的工作呢?做一道简单的算术题:假设屏幕上有30万个像素,以60fps的帧率计算,每秒需要完成一万张渲染图,每一个都包含上述五个步骤,对应五个指令,也就是说, CPU需要10000条指令才能完成一秒钟的图片渲染。
作为参考,Intel当时最高性能的CPU每秒只能进行10000次计算。
并不是CPU弱,而是它擅长线程调度。
为此,更多的空间被转移到控制单元和存储单元。
用于计算的计算单元只占用20%的空间。
而GPU则拥有超过80%的计算单元占用空间,带来超强的并行计算能力,更适合图片显示等固定步调、重复性、枯燥的工作。
CPU和GPU的内部结构,绿色部分是计算单元。
直到几年后,一些人工智能学者才意识到,具有这样特性的GPU也适合深度学习训练。
许多经典的深度神经网络架构早在20世纪下半叶就被提出。
然而,由于缺乏计算硬件来训练它们,许多研究只能在纸上进行,其发展长期停滞不前。
2020年10月的一声炮响,让GPU走向了人工智能。
深度学习的训练过程就是根据神经网络各层的功能和参数,对每个输入值进行分层运算,最终得到输出值。
与图形渲染一样,它需要大量的矩阵运算——这恰好是 GPU 最擅长的。
事物。
典型的深度神经网络架构;来源:Towards Data Science 然而,从图中可以看出,虽然数据处理量巨大,但大部分步骤都是固定的。
深度神经网络一旦应用到决策领域,就会涉及分支结构等复杂情况。
每层参数都需要基于海量数据进行正负反馈训练,不断修正。
这些差异为未来GPU对AI的适配埋下了隐患。
今天的 Amazon AI/ML 总经理 Kumar Chellapilla 是第一个发现 GPU bug 的学者。
2006年,他首次使用Nvidia的GeForce显卡实现了卷积神经网络(CNN),发现其速度比使用CPU快4倍。
这是已知最早的使用 GPU 进行深度学习的尝试 [3]。
Kumar Chellapilla 和 NVIDIA Geforce Kumar 的工作并未引起广泛关注。
重要原因是基于GPU编写程序的复杂度非常高。
但恰在这个时候,NVIDIA在2016年推出了CUDA平台,大大降低了开发者使用GPU训练深度神经网络的难度,这让深度学习的信徒们看到了更多的希望。
随后在 2016 年,斯坦福大学的 Andrew Ng 等人发表了一篇开创性的论文 [6]。
GPU的计算能力是CPU的70倍,将AI训练时间从几周缩短到几小时。
本文为人工智能的硬件实现指明了方向。
GPU极大地加速了AI从纸上走向现实的进程。
吴恩达(Ng Enda) 值得一提的是,吴恩达于 2006 年加入 Google Brain,是开头提到的 Google Cat 项目的领导者之一。
Google Brain 最终未能使用 GPU 的原因外界不得而知,但在吴恩达离开 Google 加入百度前后,一直有传言称是因为 Google 对 GPU 的态度不明确。
经过无数人的探索,接力棒最终交给了深度学习大师Hinton。
此时,时间已指向年。
2017年,Hinton和两名学生Alex Krizhevsky和Ilya Sutskeverz设计了深度卷积神经网络AlexNet,并计划参加今年的ImageNet竞赛。
但问题是,使用CPU训练AlexNet可能需要几个月的时间,因此他们将注意力转向了GPU。
这款在深度学习发展史上至关重要的GPU,就是著名的“核弹显卡”GTX。
作为NVIDIA最新Fermi架构的旗舰产品,GTX塞满了CUDA核心(上一代的核心)。
算力飞跃的同时,夸张的功耗和发热问题也让NVIDIA获得了“核弹工厂”的绰号。
A是砷,B是蜂蜜。
与使用GPU训练神经网络的“流畅”相比,散热问题根本不值得一提。
Hinton团队利用NVIDIA的CUDA平台成功完成了编程。
在两张GTX显卡的支持下,10000张图像的训练仅用了一周时间,AlexNet成功夺得冠军。
由于ImageNet竞赛以及Hinton本人的影响,所有人工智能学者瞬间意识到了GPU的重要性。
两年后,Google 凭借 GoogLeNet 模型参加 ImageNet,并以 93% 的准确率夺得冠军。
它使用 NVIDIA GPU。
今年,所有参赛队伍的 GPU 使用数量猛增至 100%。
比赛之外,GPU已经成为深度学习的“必备消耗”,给黄仁勋带来了源源不断的订单。
这让英伟达摆脱了移动市场惨败的阴影——2009年iPhone发布后,智能手机芯片的蛋糕迅速扩大。
英伟达也试图从三星、高通、联发科等手中分一杯羹,但其推出的Tegra处理器却因散热问题而陷入困境。
问题没有解决。
最终,GPU拯救的人工智能领域让英伟达获得了第二次增长曲线。
但毕竟 GPU 不是为训练神经网络而设计的。
人工智能发展得越快,这些问题就会暴露得越多。
例如,GPU和CPU虽然存在显着差异,但本质上都遵循冯·诺依曼结构,存储和运算是分离的。
这种分离带来的效率瓶颈,毕竟图像处理的步骤相对固定,可以通过更多的并行操作来解决,但在分支结构较多的神经网络中却是非常致命的。
每次向神经网络添加一层或分支时,都需要额外的内存访问来存储用于回溯的数据,并且在这方面花费的时间是不可避免的。
尤其是在大模型时代,模型越大,需要执行的内存访问操作就越多——最终内存访问所消耗的能量比计算高很多倍。
一个简单的比喻就是,GPU是一个肌肉男(有很多计算单元),但是每收到一条指令,他都要回去看指令手册(内存)。
最后,随着模型规模和复杂程度的增加,大男子主义实际工作的时间非常有限,而我却被频繁翻阅手册累得口吐白沫。
内存问题只是 GPU 在深度神经网络应用中的众多“不适”之一。
NVIDIA从一开始就意识到了这些问题,并迅速开始对GPU进行“魔改”,使其更适合人工智能应用场景;而消息灵通的AI玩家也在暗中试图利用GPU的缺陷来撬开黄仁勋帝国的墙角。
一场攻防战开始了。
02谷歌与英伟达之间的秘密战争。
面对AI算力的巨大需求和GPU的先天缺陷,黄仁勋想出了两套齐头并进的对策。
第一套是沿着“算力老人法力无边”的道路继续暴力堆砌算力。
在AI算力需求每3.5个月翻倍的时代,算力就是挂在人工智能公司眼前的胡萝卜,让他们一边骂黄仁勋高超的刀法,一边抢夺英伟达的所有财产。
像一只舔狗。
的生产能力。
第二套是通过“改进创新”逐步解决GPU与人工智能场景不匹配的问题。
这些问题包括但不限于功耗、内存墙、带宽瓶颈、低精度计算、高速连接、特定模型优化……今年以来,NVIDIA突然加快了架构更新的速度。
NVIDIA发布CUDA后,采用统一的架构来支持图形和计算两大场景。
第一代架构于2015年首次亮相,被命名为Tesla。
这并不是黄仁勋想要向马斯克示好,而是向物理学家尼古拉·特斯拉(最早一代是居里架构)致敬。
此后,Nvidia的每一代GPU架构都以著名科学家的名字命名,如下图所示。
在每次架构迭代中,NVIDIA 都在不断积累计算能力的同时不断改进,而不会“伤筋动骨”。
例如,2000年的第二代Fermi架构存在散热拉伸的缺点,而2007年的第三代架构Kepler则将整体设计思路从高性能转向低功耗,以改善散热问题;为了解决前面提到的“肌肉问题”“傻瓜”问题,2008年的第四代Maxwell架构增加了更多的内部逻辑控制电路,以方便精确控制。
为了适应AI场景,NVIDIA“魔改”的GPU在一定程度上越来越像CPU——正如CPU优异的调度能力是以牺牲计算能力为代价的,NVIDIA在计算核心的堆叠上也不得不克制。
然而,无论对承载多功能性负担的GPU进行多少改进,它们仍然无法与AI场景中的专用芯片竞争。
最先攻击英伟达的是谷歌,它是第一个大规模采购GPU用于AI计算的公司。
2018年通过GoogLeNet大展拳脚后,谷歌不再公开参与机器识别竞赛,转而合谋开发AI专用芯片。
2006年,谷歌凭借AlphaGo取得领先。
在拿下李世石后,立即推出了自研AI芯片TPU,以“为AI而生”的新架构让英伟达措手不及。
TPU是TensorProcessingUnit的缩写,中文名称为“张量处理单元”。
如果说英伟达对GPU的“魔改”是推倒东墙补西墙,那么TPU就是通过从根本上降低存储和连接需求,将芯片空间最大程度转移到计算上。
具体来说,两大手段:第一是量化技术。
现代计算机运算通常使用高精度数据并占用大量内存。
然而事实上,大多数神经网络计算并不需要32位或16位浮点计算的精度。
量化技术的本质基本上是逼近32位/16位数字。

到 8 位整数,保持适当的精度并降低存储要求。
其次是脉动阵列,即矩阵乘法阵列,这也是TPU和GPU最关键的区别之一。
简单来说,神经网络运算需要大量的矩阵运算。
GPU只能将矩阵计算一步步分解为多个向量计算。
每组都需要访问内存并保存本层的结果,直到所有向量计算完成。
,然后将各层的结果组合起来得到输出值。
在TPU中,数千个计算单元直接连接形成矩阵乘法阵列。
作为计算核心,可以直接进行矩阵计算。
除了一开始加载数据和函数外,不需要访问存储单元,大大减少了访问时间。
该频率大大加快了TPU的计算速度,并大大降低了能耗和物理空间占用。
CPU、GPU、TPU内存(内存)的访问次数相比Google的TPU是非常快的。
从设计、验证、量产到最终在自有数据中心部署仅用了15个月。
经测试,TPU在CNN、LSTM、MLP等AI场景下的性能和功耗大幅优于NVIDIA同期GPU。
所有的压力一下子就压到了Nvidia身上。
被大客户背后捅刀的感觉很不舒服,但英伟达不会坐以待毙,拉锯战开始了。
谷歌推出TPU五个月后,英伟达也推出了16nm工艺的Pascal架构。
一方面,新架构引入了著名的NVLink高速双向互连技术,大大提升了连接带宽;另一方面,它模仿TPU的量化技术,通过降低数据精度来提高神经网络的计算效率。
2018年,NVIDIA推出了Volta,这是第一个专门为深度学习设计的架构,它首次引入了TensorCore,专门用于矩阵运算——尽管4×4乘法阵列比TPU×脉动阵列略小。
简陋,但在保持灵活性和多功能性的同时做出了妥协。
TensorCore在NVIDIA V中实现的4x4矩阵运算。
NVIDIA高管向客户宣称:“Volta不是Pascal的升级版,而是一个全新的架构”。
谷歌也在与时间赛跑。
2015年之后,TPU五年更新了三代。
TPUv2、TPUv3、TPUv4于2018年推出,数据摆在NVIDIA的脸上[4]:TPU v4比NVIDIA的A计算速度快1.2至1.7倍,同时功耗降低1.3至1.9倍。
谷歌不对外出售TPU芯片,同时继续大量采购Nvidia的GPU。
这使得两者之间的AI芯片竞争仍然是“秘密竞争”而不是“公开竞争”。
但毕竟谷歌将TPU部署到自己的云服务系统中,对外提供AI计算服务,这无疑压缩了英伟达的潜在市场。
谷歌首席执行官桑达尔·皮查(Sundar Picha)向外界展示了TPU v4。
两者“打斗”的同时,人工智能领域的进展也在突飞猛进。
2009年,Google提出了革命性的Transformer模型,OpenAI立即基于Transformer开发了GPT-1。
大型模型军备竞赛爆发,AI算力需求自2016年AlexNet出现后第二次加速。
NVIDIA注意到这一新趋势后,于2016年推出Hopper架构,在会上推出了Transformer加速引擎。
首次在硬件层面进行测试,声称可以将基于Transformer的大型语言模型的训练时间提高9倍。
基于Hopper架构,NVIDIA推出了“地球上最强大的GPU”——H.H是Nvidia的终极“缝合怪物”。
一方面引入了各种AI优化技术,如量化、矩阵计算(Tensor Core 4.0)和Transformer加速引擎;另一方面,它又充满了Nvidia的传统优势,例如CUDA核心、80GB HBM2显存以及高达GB/s的NVLink 4.0连接技术。
有了H在手,Nvidia暂时松了口气。
市场上没有比H更强大的量产芯片了。
谷歌和NVIDIA之间的秘密来回也是一种相互成就:NVIDIA从谷歌引进了许多创新技术,谷歌的尖端人工智能研究充分受益于 NVIDIA GPU 的创新。
两者联手,将AI算力降低到可以“踮着脚尖”使用大型语言模型。
那些风头正劲的,比如OpenAI,也都是站在这两个人的肩膀上。
但感情归感情,生意归生意。
围绕GPU的攻防之战让业界更加确定了一件事:GPU并不是AI的最优解决方案,定制化专用芯片(ASIC)有打破Nvidia垄断的可能。
裂缝已经打开,谷歌自然不是唯一跟随这一趋势的公司。
尤其是算力已经成为AGI时代最确定的需求,吃饭的时候大家都想和NVIDIA坐在同一张桌子上。
03 裂缝不断扩大 除了OpenAI之外,还有两家公司脱离了当前的AI热潮。
一个是AI绘图公司Midjourney,其掌控各种绘画风格的能力让无数碳基艺术家感到恐惧;另一个是自体。
创始人来自OpenAI,其对话机器人Claude与ChatGPT有过多次来往。
然而,两家公司都没有购买 Nvidia GPU 来构建超级计算机,而是使用谷歌的计算服务。
为了满足AI算力的爆发,谷歌利用块TPU搭建了一套超级计算机(TPU v4 Pod)。
这些芯片与自主研发的光路开关(OCS)互连,不仅可以用来训练自己的 LaMDA、MUM 和 PaLM 等大型语言模型,还可以为 AI 初创公司提供廉价且高质量的服务。
Google TPU v4 Pod 超级计算机和 Tesla 也是 DIY 超级计算机。
推出车载FSD芯片后,特斯拉于今年8月向外界展示了采用自家D1芯片打造的超级计算机Dojo ExaPOD。
其中,D1芯片由台积电制造,采用7nm工艺。
D1芯片直接让Dojo成为全球计算能力第五大的计算机。
不过,两者加起来还无法与微软自研Athena芯片的影响相比。
微软是 NVIDIA 最大的客户之一。
其自有的Azure云服务至少采购了数万块A、H高端GPU。
未来不仅支持ChatGPT庞大的对话消费,还提供Bing、Microsoft、Teams、Github、SwiftKey等。
等待一系列使用AI的产品。
仔细算下来,微软要缴纳的“英伟达税”是一个天文数字,自研芯片几乎是不可避免的。
就像阿里巴巴计算了淘宝、天猫未来对云计算、数据库、存储的需求,发现也是一个天文数字,于是果断开始扶持阿里云,并在内部发起了轰轰烈烈的“去IOE”运动。
节约成本是一方面,垂直整合创造差异化是另一方面。
在手机时代,三星手机的CPU(AP)、内存、屏幕都是自己生产和销售的,这为三星成为全球Android霸主做出了巨大的贡献。
谷歌和微软在打造核心的同时,也为自己的云服务进行芯片级优化,以打造差异化。
因此,与苹果和三星不对外出售芯片不同,谷歌和微软的AI芯片虽然不会对外出售,但会利用“AI算力云服务”来消化英伟达的一些潜在客户。
Midjourney 和 Authropic 就是例子。
未来,他们将会有更多的小公司(尤其是在AI应用层)选择云服务。
全球云计算市场高度集中。
排名前五的厂商(亚马逊AWS、微软Azure、谷歌云、阿里云和IBM)占比超过60%,而且都在生产自己的AI芯片。
其中,谷歌进展最快,IBM中国储备最强,微软影响最大,亚马逊保密性最好,阿里巴巴最难。
国内各大厂商都自研芯片,Oppo折库的结局将为每一个进入市场的玩家蒙上阴影。
但海外大企业自主研发,可以用资金打造人才和技术供应链。
比如,特斯拉搞FSD,聘请了硅谷的吉姆·凯勒、大神。
谷歌开发了TPU,并直接聘请了图灵奖获得者、RISC架构的发明者David Patterson教授。
除了大厂商之外,一些中小型公司也在试图抢走Nvidia的蛋糕,比如一度估值28亿美元的Graphcore。
国内的寒武纪也属于这一类。
下表列出了全球相对知名的初创AI芯片设计公司。
AI芯片初创公司的困难在于,他们没有大厂雄厚的财力来持续投入,也无法像谷歌那样自己生产、自己销售。
除非他们有独特的技术路线或者有特别强的优势,否则他们在与英伟达的正面交锋中基本没有胜算。
后者的成本和生态优势几乎可以消除客户的所有顾虑。
初创公司对英伟达的影响有限,黄仁勋的隐忧还在于那些不讲诚信的大客户。
当然,各大厂商还是离不开NVIDIA。
例如,即使谷歌的TPU已经更新到第四代,仍然需要大量采购GPU来与TPU配合提供算力;尽管特斯拉拥有性能令人难以置信的 Dojo 超级计算机,但马斯克仍然需要选择从 NVIDIA 购买 0 个 GPU。
不过,黄仁勋已经从马斯克身上体会到了与各大厂商的可塑友谊。
2016年,马斯克公开宣布要开发自己的汽车芯片(当时使用的是Nvidia的DRIVE PX)。
黄仁勋在电话会议中当场受到分析师质疑,一度无法来台。
马斯克事后发表了“澄清”,但一年后特斯拉仍然义无反顾地离开了英伟达[5]。
大型制造商在节省成本方面从不手软。
PC时代英特尔的芯片虽然销往B端,但消费者的选择自主权很强,厂商需要宣传“Intel Inside”;但在云计算时代,巨头们可以封锁所有底层硬件信息,并在未来购买同样的硬件。
TFlops算力,消费者能分辨出哪部分来自TPU、哪部分来自GPU吗?因此,NVIDIA最终不得不面对的问题是:GPU确实不是为AI而生,但GPU会是AI的最优解决方案吗? 17年来,黄仁勋将GPU从单一游戏或图像处理场景中分离出来,使其成为通用计算工具。
挖矿浪潮来了,抓住挖矿浪潮,元宇宙火起来,元宇宙和AI来拥抱AI。
GPU在每一个新场景中不断进行“魔改”,试图在“通用性”和“专用性”之间找到平衡点。
回顾NVIDIA这二十年,它推出了无数改变行业的新技术:CUDA平台、TensorCore、RT Core(光线追踪)、NVLink、cuLitho平台(计算光刻)、混合精度、Omniverse、Transformer引擎……这些技术帮助英伟达从一家二线芯片公司转型为业界市值最大的公司,这确实令人鼓舞。
但每一代人都应该有自己的计算架构。
人工智能正在飞速发展,技术突破速度之快可以用小时来衡量。
如果你想让AI像PC/智能手机普及时那样渗透到人类生活中,那么计算能力成本可能需要下降99%,而GPU可能不是唯一的答案。
历史告诉我们,一个帝国无论多么繁荣,可能还是要小心那条不起眼的裂缝。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-06
06-18
06-17
06-18
06-17
最新文章
首先告诉我什么是智能汽车!
盲盒明星卡的暴利与泡沫:2元卡卖700万,直播卖卡月入百万
黑色星期五轰轰烈烈地回来了,结果这些中国企业扛起了全场
锂电池隔膜疯狂扩产:兴源材料欲夺回C位?
当我考上缅语专业时:凌晨三点我还在走廊里背单词,毕业后,我不仅仅是一名翻译者
被遗弃,被收获?老年人上网到底有多难?
海外日报 -今年,我国自主研发游戏海外实际销售收入实现两位数增长;三星电子正式成立机器人业务团队36氪海外·15分钟前
腾讯音乐:爱、相信、坚持