北京正在加速突破光刻机“卡脖子”难题
06-06
12月推出AI新产品时,英特尔CEO基辛格将枪口瞄准了英伟达。
基辛格首先公开强调英伟达CUDA软件的护城河并不像外界想象的那么深,随后又在麻省理工学院的一个论坛上对英伟达褒贬不一,称英伟达在AI GPU领域运气格外好。
基辛格将英伟达的成功归功于运气,并认为运气站在英特尔这一边。
他强调,英伟达最初将 GPU 用于通用计算,根本没有考虑 AI。
他遗憾地提到,如果他没有被英特尔踢出,他看好的Larrabee项目就不会被终止。
那么改变人工智能形态的可能是 Larrabee,而不是 CUDA。
Larrabee是Intel早期开发的通用图形处理器(GPGPU)。
Nvidia也在同时进行类似的项目,并基于此推出了CUDA平台。
基辛格的判断不无道理。
13年前他被迫离开Intel时,NVIDIA不久前就推出了CUDA。
CUDA 1.0的早期文档描述了通用计算的前景,涉及物理模拟、计算金融和计算生物学,实际上并没有人工智能的存在。
更重要的是,帮助Nvidia CUDA构建深度神经网络库的高管来自基辛格提到的Larrabee项目。
这位高管就是 Bryan Catanzaro,现任 Nvidia 深度学习应用研究副总裁。
但当基辛格发起攻击时,他在社交媒体X上表达了相反的观点,他认为“英伟达今天的地位并非来自运气,而是来自愿景和执行力”。
回顾商业领域的公司起起落落,运气往往是一个被忽视的因素。
99岁的芒格在他生命的最后一段时期总结道:“那些脱颖而出的人和公司通常拥有智慧、努力和很多运气。
”纵观GPU与AI技术交互的历史,不难发现Nvidia不仅有好运,甚至好运的周期也足够长。
问题是,支撑这份好运的是“愿景和执行力”吗? 1、“富贵”时刻到来。
如今,很难找到 Nvidia 的单张卡。
HGPU 有两个主要买家,其中包括微软。
根据Omdia Research的报告和锐捷金融的估值,微软以数十亿美元的总成本购买了15万枚H。
考虑到H供不应求,可以说微软是在“乞求”Nvidia接受这笔钱。
然而,早在2000年,如果微软的研发专家想要购买一块1万美元的GPU,他们就会面临很大的内部压力,即使这些GPU将用于最具商业潜力的项目。
不仅是微软,还有谷歌。
10 年前,只有少数人和公司意识到 GPU 的功能。
2016年,谷歌人工智能主管了解到,该公司挖来的深度学习研究人员从未使用过该公司强大的数据中心,而是偷偷设置了一块隐藏在工作站下的GPU来使用。
了解情况后,他申请了1.3亿美元的预算,购买4万块GPU。
科技记者凯德·梅茨在《深度学习革命》书中记录到,这项预算遭到了管理层的强烈反对,最终得到了创始人拉里·佩奇的批准。
更夸张的是,Nvidia并没有完全意识到GPU的潜力。
直到谷歌拿到了1.3亿美元的订单后,才在深度学习领域有了实质性的业务布局。
深度学习和机器视觉等话题首次出现在英伟达的技术大会上。
这一年被认为是英伟达被命运选中的时刻,也是十年“富贵”的起点。
然而,英伟达并不想将这种命运归咎于运气。
它坚称自己在 2000 年代中期就意识到了 GPU 在神经网络应用中的潜力。
2.商业巨头联手改写历史。
在今年的一篇博文中,Nvidia 将 GPU 在深度学习中的成功追溯到斯坦福大学教授吴恩达 (Andrew Ng) 2006 年发表的一篇论文。
Ng的团队得出的结论是,当时GPU用于深度学习工作的计算能力远远超过了多核CPU。
他们使用两块 GTX GPU 训练一个具有 1 亿个参数的神经网络,比使用 CPU 快了 70 倍,并且训练时间从几周缩短到一天左右。
NVIDIA的编程软件CUDA于2017年推出。
由于它不是为深度学习而设计的,因此研究人员需要使用CUDA将原来基于CPU的代码重写为GPU代码。
Ng Enda的论文中有相当篇幅介绍了使用CUDA的想法,因此后来进入了NVIDIA的视野。
2008 年,Bryan Catanzaro 从英特尔来到 NVIDIA。
他认为自己是 NVIDIA 的第一位 AI 研究员,也是当时的第一位研究员。
卡坦扎罗在接受媒体采访时表示,他从纽约大学人工智能实验室了解到,一群机器学习研究人员正在疯狂地为 GPU 核心编写软件。
他受到当时工作成果的启发,创建了 CUDA 深度神经网络库(cuDNN)。
如果把CUDA比作AI工作台,那么cuDNN就是AI专用螺丝刀。
cuDNN于2016年发布,是NVIDIA唯一的深度学习软件产品。
Bryan Catanzaro 认为,真正让 Nvidia GPU 在 AI 领域脱颖而出的是竞争。
在2017年举办的ImageNet图像识别大赛中,首次参赛的AlexNet神经网络因为表现出了超出人们想象的识别率而一炮而红。
这次比赛引起了轰动,被认为是深度学习爆发的始作俑者。
AlexNet 来自被称为“深度学习之父”的 Geoffrey Hinton 和他的两个学生。
比赛过程中,他们没有使用当时常用的计算机视觉代码,而是专注于深度学习,让机器自己学习识别图像。
当时最令人惊讶的是AlexNet只使用了两块GTX GPU。
谷歌同期的技术需要使用数据中心的CPU来从图像中识别猫。
在此基础上,Catanzaro 详细研究了 GPU 和 CPU 的能力。
他发现当时一个CPU的深度学习性能只需要12个NVIDIA GPU就可以实现。
一系列的突破和研究让商业公司看到了深度学习的未来。

包括百度等科技公司在内的硅谷巨头已经开始利用AI重构未来格局。
GPU 已经成为他们领地中的一块砖头,Nvidia 此后又划出了第二道防线。
增长曲线。
不过,需要强调的是,这个看似完整的故事并不是故事的全部。
年前,深度学习还是一个小领域,商业公司的参与让这个小领域成为了共识。
反过来,由于商业公司从自己的角度参与并讲述了这个过程,他们也改变了历史的面貌。
在一些研究人员看来,他们对GPU的认识和使用远远早于商业公司的发现。
英伟达的幸运背后,还有一些被遗忘的人和事。
3.深度学习的公开案例 2006年,Geoffrey Hinton利用AlexNet建立了自己和两名学生在深度学习领域的地位。
Hinton 的一名学生于 2016 年进入 OpenAI,他就是 2017 年 OpenAI“宫斗”闹剧的主角之一——IIya Sutskever。
IIya因为闹剧走出实验室,被全世界网友认可,成为科技名人。
闹剧最高潮时,吃瓜群众埃隆·马斯克发推文向网友介绍从未出过圈的重量级科学家尤尔根·施米德胡贝尔 (Jurgen Schmidhuber)。
Jurgen Schmidhuber 是当今领先的人工智能科学家之一。
他在2007年发明的长短期记忆网络(LSTM)现在已经应用于大多数语音识别和机器翻译产品中,比如苹果的Siri、亚马逊智能音箱、谷歌翻译等。
在他的个人博客中,他详细记录了他的研究成果。
团队对整个人工智能社区的技术贡献。
他在博文中解释说,GPT 中代表“Transformer”的“T”和代表“预训练”的“P”都是基于他团队的工作。
这或许也是马斯克在那条推文中想要表达的意思。
最让Schmidhuber担心的是AlexNet,它让Geoffrey Hinton一举成名。
在他看来,AlexNet的成就是基于AI社区的技术成就,不应该夺走所有的光环。
他同期提到了DanNet神经网络。
DanNet较早使用GPU训练,较早在比赛中超越人类视觉识别能力,并获得更多奖项。
电厂查阅了 DanNet 的信息,发现它来自 Jurgen Schmidhuber 领导的团队。
它参加的比赛往往直接服务于商业和科学应用,比如手写识别、癌症医学图像识别等。
DanNet在2006年就获得了第一个奖项,并且在参加的所有比赛中都获得了冠军。
因为DanNet专注于参加大型图像识别比赛中,2016年它并没有与AlexNet同台竞技。
外界从AlexNet开始基于商业角度理解深度学习,并将AI界的荣誉寄托在Geoffrey Hinton身上,这让Schmidhuber不满意。
2006年,他试图通过《自然》杂志纠正这一现象,当年引发了AI界的热议。
这个公开案例也表明,使用GPU来训练神经网络在2016年已经是一种成熟的方法。
根据早期的DanNet论文,电厂发现Nvidia好运的起点可以追溯到今年年初。
4、被忽视的十年 20世纪80年代,人工智能研究从危机中崛起,各种新技术相继诞生。
Geoffrey Hinton 的反向传播算法、Yann LeCun 的卷积神经网络和 Jurgen Schmidhuber 的长短期记忆(LSTM)帮助打破了 AI 社区的坚冰。
进入今年,这些新的理论技术需要计算能力的支持才能有效地投入研究,但基于CPU的工作往往需要很长的时间。
幸运的是,神经网络研究人员受到使用 GPU 进行数值计算的学术工作的启发。
与此同时,为游戏设计的GPU开始迁移到Windows平台,游戏图形也从2D走向3D。
为了应对需求,NVIDIA不断升级GPU性能。
GPU在3D转换中需要运行大量的矩阵乘法,这与CPU的逻辑运算完全不同,但与神经网络的工作过程非常相似。
如果把CPU比作一个有逻辑思维的成年人,那么GPU就是一个学会了加减法的小学生。
神经网络训练需要后一种方法。
该发电厂的时间可以追溯到 2000 年。
在当年发表的一篇论文中,研究人员使用 ATI Radeon Pro 显卡将神经网络训练的效率提高了 20 倍。
年复一年,圈内不断出现评论文章,对奔腾处理器、ATI GPU 和 NVIDIA GPU 进行比较。
2017年,NVIDIA推出CUDA软件,简化AI社区的GPU编程工作,成为AI社区的主要选择。
这时,GPU训练的瓶颈就出现在内存和GPU之间的数据传输链路上。
Andrew Ng 2016年的论文显示,使用GTX GPU时,两个矩阵相乘所花费的总时间约为20毫秒,但实际计算只占其中的0.5%,其余时间都花在传输数据上。
2016年,NVIDIA推出了GTX和GTX显卡。
虽然GTX因发热在游戏性能上“翻车”,但二级缓存的引入却意外地解决了之前GPU训练遇到的瓶颈问题。
这一代显卡成为了DanNet和AlexNet在训练上实现突破的硬件基础。
可以说,从CUDA到L2缓存,NVIDIA在GPU上的两次“无心”硬件设计都击中了深度学习的需求,不经意间参与了AI社区的发展。
综上所述,从今年年初到今年,英特尔、谷歌、微软等巨头成为科技领域的主导力量,但对AI的长期探索始终处于他们的盲点。
其中,NVIDIA“无心插柳”,但十年的周期足以让一棵树长成一片森林。
尤其是年后,NVIDIA对CUDA的投入产生了更加深刻的价值。
如今,NVIDIA的AI芯片已经成为整个AI商业版图的砖块,而基于CUDA的技术堆栈也成为砖块之间的水泥。
看来Nvidia在整个GPU生态系统中是无人能敌的。
然而,就在这个确定的时刻,依赖英伟达的科技巨头却变得暧昧起来。
他们一方面加大了与NVIDIA的订单,另一方面推出了自研芯片。
微软推出了 Maia,亚马逊更新了 Trainium 2,谷歌的 TPU v5p 已经帮助实现了可观的成本节省。
像 Nvidia H 这样的通用 GPU 非常灵活,可以及时补充生成式 AI 爆炸式增长带来的需求。
随着需求的沉淀,一旦AI商业界对底层技术达成共识,对通用GPU的需求可能会让位于专用TPU或定制芯片。
因此,英伟达比以往任何时候都更需要无心的运气。
【本文经投资界伙伴电厂授权。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-06
06-18
06-18
06-06
06-06
最新文章
三只松鼠:门店扩张已全面暂停
Nvidia 已准备好“统治”AI
【创业24小时】2023年11月16日
【创业24小时】2022年10月20日
倒计时一天,浙江这座小镇要火了!
沃图网络获数千万A轮投资,加大投入海外网红营销SaaS平台建设
泰山天使基金部分退出拉手半年回报180倍
西格数据完成1000万元A+轮融资,国发创投领投