无人机送的外卖即将抵达你的后院
06-21
作者丨何思思西西主编丨陈彩娴2007年,中国信息通信研究院曾低调发布一份报告,指出了一个趋势:与主流观点相反:虽然当时全球算力出货量大部分是CPU,但从2002年开始,中国智能算力(GPU)占比已经超过通用算力,占比超过50%我国算力增长85%。
。
两年前,这个数字还没有引起云计算领域的广泛认可,但一些云厂商已经有所防范。
例如,百度在2009年提出,云计算必须考虑人工智能(AI)技术的影响。
在此期间,AI技术在核心生产场景的价值一度受到质疑,智能计算的话题暂时被搁置。
但到了2020年,随着大车型的爆发,各行各业都迎来了可能决定未来发展乃至企业命运的颠覆性技术。
运行千亿级及以上参数模型的计算基础设施建设需求重新回到业界视野。
支持智能计算平台的GPU也迎来了继2016年深度学习之后的第二春,市场反应比2018年更加热烈。
最直观的数据是NVIDIA发布的2019年Q3财报显示,NVIDIA在2019年的营收期内达到2亿美元,同比增长20%,市值突破10亿美元,比英特尔高出近1万亿美元,成为全球市值最高的芯片。
公司。
这背后的推动力无疑是今年占据各大科技头条的车型大变革。
ChatGPT的出现不仅改变了AI领域的发展格局。
语言AI的技术地位逐渐上升,取代视觉AI成为当今通用人工智能(AGI)的C级话题。
也改变了云计算——智能计算的发展格局。
权力的作用将变得更加重要。
企业技术架构将逐步从过去以CPU为计算核心转向以GPU为核心的智能计算。
GPU+CPU+DPU+……的异构计算架构将取代单一的XPU,成为云计算的主要算力模式。
甚至有业内人士预计,国内GPU版图的首次大规模重塑将在年内完成。
不管预测准确与否,可以肯定的是,这一年已经结束了。
以大模型为中心的AI技术日新月异,留给云计算厂商的准备时间已经不多了。
在云计算格局彻底重构之前,大模型时代对算力带来的新挑战仍需理性思考、谨慎对待。
计算范式的变化在大模型蓬勃发展的这一年里,人们最能直观地感受到大模型对云计算的影响,这大概就是科技同行对GPU算力的抢购。
一位算力采购从业者给雷锋网(公众号:雷锋网)讲了一个笑话。
年初,有人费尽周折找到英伟达的销售后,自以为口袋里有钱,并不慌张,“有钱有钱”。
我要求NVIDIA销售购买张A,但被NVIDIA销售拒绝,因为“要求的数量太少”。
在上半年大型模型制作高峰期、芯片出口管制宣布之前,曾一度盛传巨头的GPU卡出货才刚刚开始。
然而,还有一大批同行,花费了巨资,却依然一无所获。
毫无疑问,在大模型的影响下,云计算从互联网时代基于CPU的云向AI时代基于GPU的云转变已经成为行业共识和大势所趋。
下层芯片一方最先反应过来。
除了NVIDIA之外,高通、英特尔、Arm等厂商也开始将用于大型模型训练和推理的芯片设计和生产提上日程,为下一个时代的可能做好准备。
但除了芯片种类和数量的变化之外,雷锋网观察到,大型号对云计算厂商的影响其实还体现在更深层次的维度上。
虽然自2007年深度学习兴起以来GPU就开始用于AI算法的训练和推理,但由于基于Transformer的大型模型和超大参数规模的新特性,通用泛化能力远强于GPU过去的小型人工智能模型。
训练、推理算力需求呈指数级飙升,对算力(集群)规模、能效、稳定性提出极高要求。
单纯依靠简单的算力堆叠,完全不适合大模型时代。
在这样的趋势背景下,过去的云服务模式也需要改变和调整以适应时代。
与计算量的“膨胀”相比,云厂商的服务模式维度并未受到太多关注。
具体来说,在大模型时代,要参与新一轮的竞争,云计算厂商可能需要面对三大命题并提供解决方案: 计算基础设施的变化 关于小模型和大模型的工程量对比,我们可以用不同类型的飞机模型来进行比较:虽然都是飞机,虽然都有机翼、机身、发动机、起落架和尾翼,但玩具飞机、小型飞机、中型飞机和大型飞机各有不同尺寸和不同的功能。
建设和运维所需的技术、人才、工程量等也有很大差异。
相应地,不同参数尺度的人工智能模型需要不同的计算基础设施。
过去,小型AI模型的训练一般只需要单机上的单卡或多卡,但大型模型的训练则需要数千个GPU来运行。
就像飞机模型的例子一样,一个个位数的 GPU 和数万个 GPU 卡的集群构建并不属于同一工程规模。
完全用GPU取代是不现实的。
在实际计算中,GPU往往需要与CPU、DPU等结合,组成超大规模的智能计算集群来完成训练和推理。
大规模计算集群的构建并不能通过简单地堆叠10000块显卡来完成。
还需要专门的设计和优化,使模型训练和推理的性能和稳定性满足实际需要。
以显卡利用率为例。
过去业界千卡CPU的并行利用率通常在60%到70%之间。
这已经是一个很高的水平了,但是还不够。
时代的车轮正在飞速转动,从CPU到CPU+GPU+DPU的转变已经指日可待。
提高显卡利用率一直是云厂商面临的难题。
面对大型模型,这样的问题会变得更加关键。
随着显卡基数的扩大,显卡利用率增加5%甚至10%的影响会变得更大。
据雷锋网了解,虽然一些智能计算中心的销量很高,但利用率极低,比例仅为个位数。
也就是说,计算集群的管理还有很大的降本增效的空间。
此外,随着大型模型的参数规模和训练复杂度的增加,显卡的故障率也随之增加。
多位技术人员告诉雷锋网,NVIDIA显卡训练大机型时常见的故障是“掉卡”,即显卡在运行过程中突然失去连接或无法正常工作。
大模型的训练周期较长。
如果中途出现故障,已经执行了十多天的任务可能就得重新开始。
因此,重构大型模型的云计算基础设施体系是云厂商不得不推动的任务。
大模型服务已成主流,MaaS是趋势。
过去一年,围绕大模型技术重构上层产品和应用已成为行业共识。
虽然目前国内大模本机应用的数量还远远没有达到大众的预期,距离移动互联网时代应用无穷无尽的愿景还很遥远,但今年下半年以来,围绕大模本机应用的讨论越来越多。
- 想象原生人工智能时代的规模模型。
更多的。
以百度文心一言为例。
百度曾发布一组数据称,自8月31日百度文心一言全面开放以来的四个月里,百度千帆大模型平台大模型API的日调用量增长了10倍,调用行业不仅限于互联网、教育、电商场景,还有营销、手机、汽车等无人能想象的传统行业。
随着企业更加重视大机型的应用,大机型的商业模式也在发生变化。
在MaaS(模型即服务)的趋势下,未来客户的关注点将转向模型好不好、框架好不好等等,而不仅仅是看算力。
MaaS将彻底改变云服务的商业模式和市场格局,为各行业AI原生应用爆发式增长带来沃土。
未来,大型模型很可能不再仅仅根据API调用和根据token字数进行推理来计费。
一些厂商正在围绕GPU开发云计算服务,希望根据客户的实际使用情况收费。
百度集团副总裁侯振宇认为,MaaS收入至少会分为两类:一类是模型导向的研发收入,即基于大通用基础模型的SFT(监督微调),这将逐渐取代裸露的部分计算能力用于模型训练的好处。
在追逐基础大型模型的热潮中,公司倾向于购买计算能力来进行模型训练。
然而,随着大型模型数量的增加,越来越多的公司意识到从头开始训练大型模型是不可取的。
,在现有大型通用模型的基础上进行二次开发更加实用。
这一判断符合当前大模型领域普遍存在的“重复发明轮子”现象的应对。
另一类是AI原生应用爆发后的推理收入。
除了早期训练之外,云厂商更大的盈利潜力在于为开发者提供强大的基础大模型,并为未来深入业务场景和用户的AI应用收取推理费用。
有了这个目标,稳定的计算服务和推理体验自然就成为了云厂商竞争的分水岭。
应用程序开发范式在过去十年中已经被颠覆。
深度学习算法的实现往往需要基于单一特定场景的模型训练。
从数据标注到算法训练再到端到端部署,往往需要几周甚至几个月的时间。
然而,随着越来越多具有强泛化能力的大型基模型的诞生以及MaaS模型的成熟,大模型时代的AI模型不再需要从头开始训练,而是可以基于强大的通用大模型进行监督。
模型。
带有微调功能。
在这种研发方式的转变下,企业更加关注自身场景的数据。
再加上通用大模型的泛化优势,行业用户开发大模型应用所需的算力规模和训练时间将大大缩短。
结果是更快的迭代。
在这种模式下,计算资源的利用率也将得到极大的提高。
具体来说,大模型独特的理解、生成、逻辑和记忆能力也将带来整个技术栈、数据流和业务流的颠覆,催生新场景(如个人助理、代码生成)、新架构(比如搜索增强)生成RAG)和新的开发生态。
为适应新的人工智能应用发展范式,灵活创新的云计算系统和云服务设施更适合未来大型模型的商业化和落地。
大型模型诞生于大规模的云计算集群中。
然而,随着行业需求的变化,云计算也必须改变态度,以客户为中心,才能跟上大模型的发展。
百度的解决方案:重构启示针对大型模型训练困难、算力要求高的问题,今年以来国内外云计算厂商也进行了自己的思考和举措。
云厂商如何跟上大模型时代的步伐?这个问题不小,解决办法有很多种。
但无论答案是什么,这个问题的答案都无法回避大车型的本质——大车型的比赛不是百米短跑,而是5000米长跑甚至半程马拉松。
。
从缓急缓急的精神宗旨来看,云厂商成功的关键不仅在于快速反应,更在于全面布局、精心排雷。
以算力中心的闲置现象为例。
一位云计算销售人员告诉雷锋网,今年上半年,一些运营商和小型智能计算中心抢了一批显卡,但不知道如何使用。
从云厂商的角度来看,理想的目标是长期租赁算力。
如果短期租赁结束后后续需求不明确,原有算力资源可能闲置,造成资源浪费。
此外,目前业界关注的重点是大模型的开发和应用,而很少关注计算中心的精细化运营。
在大型模型的训练过程中,计算资源的管理也比较广泛。
如果云厂商只追求热点而不进行长期规划和管理,资源浪费背后的本质就是商业模式的崩溃。
近日,百度举办了一年一度的百度智能计算大会。
雷锋网获悉,百度在云计算重构中采取了降本增效、精准出击、全面覆盖的策略。
从百度的技术基因来看,百度既有文信的大模式,也有国内最早探索云与智能融合的实践经验。
智能云布局应采取多线布局、稳步推进。
这是适应云计算行业需求的举措,也是百度的强项。
具体来说,百度智能云的重构体现在三个方面:一是在重构智能计算基础设施方面,百度智能云推出百格·AI异构计算平台3.0。
百度百格·AI异构计算平台的研发可以追溯到2016年。
这一年,百度开始使用GPU进行AI加速。
百度开始使用GPU进行AI加速。
百度不断扩大集群规模,为最终将百格平台推向市场奠定了基础。
基础。
百格AI异构计算平台1.0于2018年发布,2018年升级至2.0版本。
相比1.0和2.0,升级后的3.0主要针对大型模型的训练和推理场景开发。
它在效率、稳定性和易运维方面进行了升级,实现了10000-ka级任务的有效训练时间超过98%,带宽有效性可达95%。
百格异构计算平台可将开源大型模型的训练和推理加速分别提升高达30%和60%。
针对AI原生时代智能算力供给失衡的问题,百度智能云发布了智能计算网络平台。
该平台支持全球接入百度及第三方建设的智能计算中心、超级计算中心、边缘节点等智能计算节点,将分散、异构的计算资源连接起来,形成统一的计算网络资源池。
,然后利用百度自主研发的算力调度算法,智能分析各种计算资源的状态、性能、利用率等指标,并统一调度算力,实现智能计算资源的灵活、稳定、高效利用。
同时,为了满足AI原生场景的需求,百度智能云不断更新和增强百度太行计算的产品能力,发布了新一代云服务器、高性能计算平台、新一代网关平台等,通过分布式云提供无处不在的服务。
智能计算能力。
在数据基础设施方面,百度沧海存储升级发布了统一的技术基础,可以支持更大规模、更高性能的计算场景。
同时发布了云原生数据库GaiaDB 4.0、数据库智能驾驶舱以及升级的大数据管理平台Serverless能力。
为了强化智能基础设施的服务能力,百度智能云今年年初开展了多项工作,如3月份将阳泉数据中心升级为智能计算中心、在2017年推出全国首个大型模型数据标注中心等。
8月,联合多个地方政府共同建设智能计算中心和AI数据标注基地。
二是全面升级MaaS服务平台。
在MaaS模式的变革下,百度智能云旨在让企业能够更加合理地选择和有效利用大模型,为上层AI应用的开发打造高效、易用的模型能力调度环境。
百度智能云千帆大模型平台已升级。
在智能计算大会上,百度公布了千帆的最新“成??绩单”。
自8月31日文信大模型向全社会全面开放以来,千帆大模型平台大模型API日调用量增长10倍。
目前,千帆平台已服务超过4万家企业用户,已帮助企业用户微调了近万个大模型。
与千帆平台2.0相比,升级后的千帆平台模型数量增加至54个,位居全国第一,并有针对性的模型能力增强;新增数据统计分析、数据质量检验等功能,结合数据清洗Visual Pipeline可以为大模型场景构建高质量的数据燃料;推出自动+手动双模型评估机制,大幅提升模型评估效率和质量。
此外,为了帮助客户更快地定制属于自己的大模型,千帆平台快速迭代模型开发的全流程工具链。
经过测试发现,与使用自建系统训练大型模型相比,使用千帆平台训练成本最多可降低90%。
三是全面开放AI原生应用工作台。
在百度云智能大会暨智能计算大会上,百度集团副总裁侯振宇指出,AI原生时代的典型系统架构至少包括模型、数据和应用三个部分。
因此,在重构智能计算基础设施和MaaS服务平台后,全开放的AI原生应用工作台千帆AppBuilder成为百度构建AI原生应用生态的重要闭环。
千帆AppBuilder将基于大模型开发AI原生应用的常用模式、工具和流程浓缩为一个工作台,帮助开发者专注于自己的业务,而不需要在开发过程中投入不必要的精力。
针对不同层次开发者的需求,Appbuilder提供了两种产品形态:“代码态”适合需要深度AI原生应用开发能力的用户,“低代码态”适合智能产品的快速定制和上线,让企业和开发者能够快速高效地进行AI原生应用开发。
大模型时代,云厂商是否应该开发自己的大模型?在过去的一年里,大型模型厂商与云厂商的关系也颇为有趣。
但在商界,淘金者和卖铲子的人往往并不矛盾。
更何况,只有淘过金的人才知道什么样的铲子最好。
百度的经验是,云计算支撑大模型,大模型也支持云计算。

由于百度在模型、计算、应用层都有布局,在百度的技术平台上,大模型可以实现从底层计算能力到上层应用的端到端连接,从而实现更好的迭代。
在技??术的支持下,6月6日百度发布ERNIE-Bot-Turbo版本时,推理性能已提升50倍; 7月7日,文心大模型3.5发布,效果提升50%,训练速度提升2倍,推理速度提升。
30次; 8月2日,百度千帆大模型平台升级,模型推理成本再降低50%。
侯振宇提供的一组数据是:自3月份《文心一言》发布以来,推理成本已降至原来水平的1%。
如果说大模型是AI时代的关键,那么这个关键一定离不开三层加持:模型、算力、应用。
无论是大模型的发展,还是云计算的发展,百度的重构都将三者合二为一讨论,而不是把它们拆开单独讨论。
这也使得百度的大模型布局均衡,整体可以齐头并进。
结论 大型模型产业刚刚起步。
事实上,无论是大型模式独角兽,还是云与模式并重的各大互联网公司,都还在摸着石头过河。
大模型时代云计算重构的解决方案不止一种,百度率先向行业交出了一份答卷。
作为一家深耕人工智能领域10余年的AI公司,Cloud for AI是百度的命运和优势。
除了全面布局、稳步推进之外,或许长远主义精神更符合大模型时代的要求。
跑得快的人能赢得 100 米短跑,但马拉松则需要耐心和毅力。
云计算正在涌向中国。
谁将带头取决于今天。
雷锋网原创文章,未经授权禁止转载。
详情请参见转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-21
06-18
06-18
06-18
06-18
06-17
06-18
06-18
06-17
06-08
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态