首页 > 科技未来 > 内容

年底了，我们来聊聊云计算和大模型

发布于：2024-06-17 编辑：匿名来源：网络

作者丨何思思西西主编丨陈彩娴2007年，中国信息通信研究院曾低调发布一份报告，指出了一个趋势：与主流观点相反：虽然当时全球算力出货量大部分是CPU，但从2002年开始，中国智能算力（GPU）占比已经超过通用算力，占比超过50%我国算力增长85%。

。

两年前，这个数字还没有引起云计算领域的广泛认可，但一些云厂商已经有所防范。

例如，百度在2009年提出，云计算必须考虑人工智能（AI）技术的影响。

在此期间，AI技术在核心生产场景的价值一度受到质疑，智能计算的话题暂时被搁置。

但到了2020年，随着大车型的爆发，各行各业都迎来了可能决定未来发展乃至企业命运的颠覆性技术。

运行千亿级及以上参数模型的计算基础设施建设需求重新回到业界视野。

支持智能计算平台的GPU也迎来了继2016年深度学习之后的第二春，市场反应比2018年更加热烈。

最直观的数据是NVIDIA发布的2019年Q3财报显示，NVIDIA在2019年的营收期内达到2亿美元，同比增长20%，市值突破10亿美元，比英特尔高出近1万亿美元，成为全球市值最高的芯片。

公司。

这背后的推动力无疑是今年占据各大科技头条的车型大变革。

ChatGPT的出现不仅改变了AI领域的发展格局。

语言AI的技术地位逐渐上升，取代视觉AI成为当今通用人工智能（AGI）的C级话题。

也改变了云计算——智能计算的发展格局。

权力的作用将变得更加重要。

企业技术架构将逐步从过去以CPU为计算核心转向以GPU为核心的智能计算。

GPU+CPU+DPU+……的异构计算架构将取代单一的XPU，成为云计算的主要算力模式。

甚至有业内人士预计，国内GPU版图的首次大规模重塑将在年内完成。

不管预测准确与否，可以肯定的是，这一年已经结束了。

以大模型为中心的AI技术日新月异，留给云计算厂商的准备时间已经不多了。

在云计算格局彻底重构之前，大模型时代对算力带来的新挑战仍需理性思考、谨慎对待。

计算范式的变化在大模型蓬勃发展的这一年里，人们最能直观地感受到大模型对云计算的影响，这大概就是科技同行对GPU算力的抢购。

一位算力采购从业者给雷锋网（公众号：雷锋网）讲了一个笑话。

年初，有人费尽周折找到英伟达的销售后，自以为口袋里有钱，并不慌张，“有钱有钱”。

我要求NVIDIA销售购买张A，但被NVIDIA销售拒绝，因为“要求的数量太少”。

在上半年大型模型制作高峰期、芯片出口管制宣布之前，曾一度盛传巨头的GPU卡出货才刚刚开始。

然而，还有一大批同行，花费了巨资，却依然一无所获。

毫无疑问，在大模型的影响下，云计算从互联网时代基于CPU的云向AI时代基于GPU的云转变已经成为行业共识和大势所趋。

下层芯片一方最先反应过来。

除了NVIDIA之外，高通、英特尔、Arm等厂商也开始将用于大型模型训练和推理的芯片设计和生产提上日程，为下一个时代的可能做好准备。

但除了芯片种类和数量的变化之外，雷锋网观察到，大型号对云计算厂商的影响其实还体现在更深层次的维度上。

虽然自2007年深度学习兴起以来GPU就开始用于AI算法的训练和推理，但由于基于Transformer的大型模型和超大参数规模的新特性，通用泛化能力远强于GPU过去的小型人工智能模型。

训练、推理算力需求呈指数级飙升，对算力（集群）规模、能效、稳定性提出极高要求。

单纯依靠简单的算力堆叠，完全不适合大模型时代。

在这样的趋势背景下，过去的云服务模式也需要改变和调整以适应时代。

与计算量的“膨胀”相比，云厂商的服务模式维度并未受到太多关注。

具体来说，在大模型时代，要参与新一轮的竞争，云计算厂商可能需要面对三大命题并提供解决方案：计算基础设施的变化关于小模型和大模型的工程量对比，我们可以用不同类型的飞机模型来进行比较：虽然都是飞机，虽然都有机翼、机身、发动机、起落架和尾翼，但玩具飞机、小型飞机、中型飞机和大型飞机各有不同尺寸和不同的功能。

建设和运维所需的技术、人才、工程量等也有很大差异。

相应地，不同参数尺度的人工智能模型需要不同的计算基础设施。

过去，小型AI模型的训练一般只需要单机上的单卡或多卡，但大型模型的训练则需要数千个GPU来运行。

就像飞机模型的例子一样，一个个位数的 GPU 和数万个 GPU 卡的集群构建并不属于同一工程规模。

完全用GPU取代是不现实的。

在实际计算中，GPU往往需要与CPU、DPU等结合，组成超大规模的智能计算集群来完成训练和推理。

大规模计算集群的构建并不能通过简单地堆叠10000块显卡来完成。

还需要专门的设计和优化，使模型训练和推理的性能和稳定性满足实际需要。

以显卡利用率为例。

过去业界千卡CPU的并行利用率通常在60%到70%之间。

这已经是一个很高的水平了，但是还不够。

时代的车轮正在飞速转动，从CPU到CPU+GPU+DPU的转变已经指日可待。

提高显卡利用率一直是云厂商面临的难题。

面对大型模型，这样的问题会变得更加关键。

随着显卡基数的扩大，显卡利用率增加5%甚至10%的影响会变得更大。

据雷锋网了解，虽然一些智能计算中心的销量很高，但利用率极低，比例仅为个位数。

也就是说，计算集群的管理还有很大的降本增效的空间。

此外，随着大型模型的参数规模和训练复杂度的增加，显卡的故障率也随之增加。

多位技术人员告诉雷锋网，NVIDIA显卡训练大机型时常见的故障是“掉卡”，即显卡在运行过程中突然失去连接或无法正常工作。

大模型的训练周期较长。

如果中途出现故障，已经执行了十多天的任务可能就得重新开始。

因此，重构大型模型的云计算基础设施体系是云厂商不得不推动的任务。

大模型服务已成主流，MaaS是趋势。

过去一年，围绕大模型技术重构上层产品和应用已成为行业共识。

虽然目前国内大模本机应用的数量还远远没有达到大众的预期，距离移动互联网时代应用无穷无尽的愿景还很遥远，但今年下半年以来，围绕大模本机应用的讨论越来越多。

- 想象原生人工智能时代的规模模型。

更多的。

以百度文心一言为例。

百度曾发布一组数据称，自8月31日百度文心一言全面开放以来的四个月里，百度千帆大模型平台大模型API的日调用量增长了10倍，调用行业不仅限于互联网、教育、电商场景，还有营销、手机、汽车等无人能想象的传统行业。

随着企业更加重视大机型的应用，大机型的商业模式也在发生变化。

在MaaS（模型即服务）的趋势下，未来客户的关注点将转向模型好不好、框架好不好等等，而不仅仅是看算力。

MaaS将彻底改变云服务的商业模式和市场格局，为各行业AI原生应用爆发式增长带来沃土。

未来，大型模型很可能不再仅仅根据API调用和根据token字数进行推理来计费。

一些厂商正在围绕GPU开发云计算服务，希望根据客户的实际使用情况收费。

百度集团副总裁侯振宇认为，MaaS收入至少会分为两类：一类是模型导向的研发收入，即基于大通用基础模型的SFT（监督微调），这将逐渐取代裸露的部分计算能力用于模型训练的好处。

在追逐基础大型模型的热潮中，公司倾向于购买计算能力来进行模型训练。

然而，随着大型模型数量的增加，越来越多的公司意识到从头开始训练大型模型是不可取的。

，在现有大型通用模型的基础上进行二次开发更加实用。

这一判断符合当前大模型领域普遍存在的“重复发明轮子”现象的应对。

另一类是AI原生应用爆发后的推理收入。

除了早期训练之外，云厂商更大的盈利潜力在于为开发者提供强大的基础大模型，并为未来深入业务场景和用户的AI应用收取推理费用。

有了这个目标，稳定的计算服务和推理体验自然就成为了云厂商竞争的分水岭。

应用程序开发范式在过去十年中已经被颠覆。

深度学习算法的实现往往需要基于单一特定场景的模型训练。

从数据标注到算法训练再到端到端部署，往往需要几周甚至几个月的时间。

然而，随着越来越多具有强泛化能力的大型基模型的诞生以及MaaS模型的成熟，大模型时代的AI模型不再需要从头开始训练，而是可以基于强大的通用大模型进行监督。

模型。

带有微调功能。

在这种研发方式的转变下，企业更加关注自身场景的数据。

再加上通用大模型的泛化优势，行业用户开发大模型应用所需的算力规模和训练时间将大大缩短。

结果是更快的迭代。

在这种模式下，计算资源的利用率也将得到极大的提高。

具体来说，大模型独特的理解、生成、逻辑和记忆能力也将带来整个技术栈、数据流和业务流的颠覆，催生新场景（如个人助理、代码生成）、新架构（比如搜索增强）生成RAG）和新的开发生态。

为适应新的人工智能应用发展范式，灵活创新的云计算系统和云服务设施更适合未来大型模型的商业化和落地。

大型模型诞生于大规模的云计算集群中。

然而，随着行业需求的变化，云计算也必须改变态度，以客户为中心，才能跟上大模型的发展。

百度的解决方案：重构启示针对大型模型训练困难、算力要求高的问题，今年以来国内外云计算厂商也进行了自己的思考和举措。

云厂商如何跟上大模型时代的步伐？这个问题不小，解决办法有很多种。

但无论答案是什么，这个问题的答案都无法回避大车型的本质——大车型的比赛不是百米短跑，而是5000米长跑甚至半程马拉松。

。

从缓急缓急的精神宗旨来看，云厂商成功的关键不仅在于快速反应，更在于全面布局、精心排雷。

以算力中心的闲置现象为例。

一位云计算销售人员告诉雷锋网，今年上半年，一些运营商和小型智能计算中心抢了一批显卡，但不知道如何使用。

从云厂商的角度来看，理想的目标是长期租赁算力。

如果短期租赁结束后后续需求不明确，原有算力资源可能闲置，造成资源浪费。

此外，目前业界关注的重点是大模型的开发和应用，而很少关注计算中心的精细化运营。

在大型模型的训练过程中，计算资源的管理也比较广泛。

如果云厂商只追求热点而不进行长期规划和管理，资源浪费背后的本质就是商业模式的崩溃。

近日，百度举办了一年一度的百度智能计算大会。

雷锋网获悉，百度在云计算重构中采取了降本增效、精准出击、全面覆盖的策略。

从百度的技术基因来看，百度既有文信的大模式，也有国内最早探索云与智能融合的实践经验。

智能云布局应采取多线布局、稳步推进。

这是适应云计算行业需求的举措，也是百度的强项。

具体来说，百度智能云的重构体现在三个方面：一是在重构智能计算基础设施方面，百度智能云推出百格·AI异构计算平台3.0。

百度百格·AI异构计算平台的研发可以追溯到2016年。

这一年，百度开始使用GPU进行AI加速。

百度开始使用GPU进行AI加速。

百度不断扩大集群规模，为最终将百格平台推向市场奠定了基础。

基础。

百格AI异构计算平台1.0于2018年发布，2018年升级至2.0版本。

相比1.0和2.0，升级后的3.0主要针对大型模型的训练和推理场景开发。

它在效率、稳定性和易运维方面进行了升级，实现了10000-ka级任务的有效训练时间超过98%，带宽有效性可达95%。

百格异构计算平台可将开源大型模型的训练和推理加速分别提升高达30%和60%。

针对AI原生时代智能算力供给失衡的问题，百度智能云发布了智能计算网络平台。

该平台支持全球接入百度及第三方建设的智能计算中心、超级计算中心、边缘节点等智能计算节点，将分散、异构的计算资源连接起来，形成统一的计算网络资源池。

，然后利用百度自主研发的算力调度算法，智能分析各种计算资源的状态、性能、利用率等指标，并统一调度算力，实现智能计算资源的灵活、稳定、高效利用。

同时，为了满足AI原生场景的需求，百度智能云不断更新和增强百度太行计算的产品能力，发布了新一代云服务器、高性能计算平台、新一代网关平台等，通过分布式云提供无处不在的服务。

智能计算能力。

在数据基础设施方面，百度沧海存储升级发布了统一的技术基础，可以支持更大规模、更高性能的计算场景。

同时发布了云原生数据库GaiaDB 4.0、数据库智能驾驶舱以及升级的大数据管理平台Serverless能力。

为了强化智能基础设施的服务能力，百度智能云今年年初开展了多项工作，如3月份将阳泉数据中心升级为智能计算中心、在2017年推出全国首个大型模型数据标注中心等。

8月，联合多个地方政府共同建设智能计算中心和AI数据标注基地。

二是全面升级MaaS服务平台。

在MaaS模式的变革下，百度智能云旨在让企业能够更加合理地选择和有效利用大模型，为上层AI应用的开发打造高效、易用的模型能力调度环境。

百度智能云千帆大模型平台已升级。

在智能计算大会上，百度公布了千帆的最新“成??绩单”。

自8月31日文信大模型向全社会全面开放以来，千帆大模型平台大模型API日调用量增长10倍。

目前，千帆平台已服务超过4万家企业用户，已帮助企业用户微调了近万个大模型。

与千帆平台2.0相比，升级后的千帆平台模型数量增加至54个，位居全国第一，并有针对性的模型能力增强；新增数据统计分析、数据质量检验等功能，结合数据清洗Visual Pipeline可以为大模型场景构建高质量的数据燃料；推出自动+手动双模型评估机制，大幅提升模型评估效率和质量。

此外，为了帮助客户更快地定制属于自己的大模型，千帆平台快速迭代模型开发的全流程工具链。

经过测试发现，与使用自建系统训练大型模型相比，使用千帆平台训练成本最多可降低90%。

三是全面开放AI原生应用工作台。

在百度云智能大会暨智能计算大会上，百度集团副总裁侯振宇指出，AI原生时代的典型系统架构至少包括模型、数据和应用三个部分。

因此，在重构智能计算基础设施和MaaS服务平台后，全开放的AI原生应用工作台千帆AppBuilder成为百度构建AI原生应用生态的重要闭环。

千帆AppBuilder将基于大模型开发AI原生应用的常用模式、工具和流程浓缩为一个工作台，帮助开发者专注于自己的业务，而不需要在开发过程中投入不必要的精力。

针对不同层次开发者的需求，Appbuilder提供了两种产品形态：“代码态”适合需要深度AI原生应用开发能力的用户，“低代码态”适合智能产品的快速定制和上线，让企业和开发者能够快速高效地进行AI原生应用开发。

大模型时代，云厂商是否应该开发自己的大模型？在过去的一年里，大型模型厂商与云厂商的关系也颇为有趣。

但在商界，淘金者和卖铲子的人往往并不矛盾。

更何况，只有淘过金的人才知道什么样的铲子最好。

百度的经验是，云计算支撑大模型，大模型也支持云计算。

年底了，我们来聊聊云计算和大模型

由于百度在模型、计算、应用层都有布局，在百度的技术平台上，大模型可以实现从底层计算能力到上层应用的端到端连接，从而实现更好的迭代。

在技??术的支持下，6月6日百度发布ERNIE-Bot-Turbo版本时，推理性能已提升50倍； 7月7日，文心大模型3.5发布，效果提升50%，训练速度提升2倍，推理速度提升。

30次； 8月2日，百度千帆大模型平台升级，模型推理成本再降低50%。

侯振宇提供的一组数据是：自3月份《文心一言》发布以来，推理成本已降至原来水平的1%。

如果说大模型是AI时代的关键，那么这个关键一定离不开三层加持：模型、算力、应用。

无论是大模型的发展，还是云计算的发展，百度的重构都将三者合二为一讨论，而不是把它们拆开单独讨论。

这也使得百度的大模型布局均衡，整体可以齐头并进。

结论大型模型产业刚刚起步。

事实上，无论是大型模式独角兽，还是云与模式并重的各大互联网公司，都还在摸着石头过河。

大模型时代云计算重构的解决方案不止一种，百度率先向行业交出了一份答卷。

作为一家深耕人工智能领域10余年的AI公司，Cloud for AI是百度的命运和优势。

除了全面布局、稳步推进之外，或许长远主义精神更符合大模型时代的要求。

跑得快的人能赢得 100 米短跑，但马拉松则需要耐心和毅力。

云计算正在涌向中国。

谁将带头取决于今天。

雷锋网原创文章，未经授权禁止转载。

详情请参见转载说明。

站长声明

标签：

上一篇：新形势下的上市之路：关于改变、选择与准备-钟鼎言论

下一篇：“云工场”宣布完成天使轮融资，先锋长青领投，

无人机送的外卖即将抵达你的后院

当你不想出门或不能出门，但有想要买的东西或食物时，你会怎么做？这时候，你当然打开各种外卖APP，选择自己想要的商品，付款，然后等待送货员送货上门。不过，在北卡罗来纳州和德克萨斯州的一些地方，送货人可能是无人机。 ▲图片来自：Twitter 以色列初创公司 Flytrex 近日

06-21
建立售后服务体系，提高家电制造业的售后服务能力

.wp-block-column h3{margin-left:0}家电制造业竞争激烈，提供高优质的售后服务是每个公司的重点。建立高效的售后体系，可以大大提升家电厂商的售后服务能力，更好地满足客户需求。作为一种创新的解决方案，沃丰科技的智能客服产品可以为家电制造商提供智能化、定制化的售后

06-18
微灵时代完成4亿元B轮融资，明石资本领投，

投资圈（ID：pedaily）据12月1日消息，云游戏全服务商微灵时代宣布已完成总金额4亿元人民币的融资。 B轮融资，本轮融资由明石资本领投，鼎晖VGC跟投，老股东小米、米哈游、顺为资本等投资人。微灵时代创始人&CEO郭建君表示：“我们和明世的接触非常愉快。黄总是一位对科技未

06-18
河南鹤壁市成立卫星互联网产业基金

投资界（ID：pedaily）消息，鹤壁市近日成立河南航旗卫星互联网产业基金。已完成工商注册。基金规模4.01亿元，主要用于支持卫星制造、发射、应用等相关产业发展，助力“女娲星座”快速建网，抢占卫星产业制高点。该基金由市财政局（国有资产监督管理局）牵头，鹤壁投资集团

06-18
解锁海外版客服系统：你的国际“聊天神器”

.wp-block-column h3{margin-left:0} 在当今全球化的商业环境下，企业不仅要面对国内市场的竞争，还要积极开拓国际市场，以获得更广阔的发展空间。然而，在拓展海外市场的过程中，语言和文化差异往往成为企业与客户沟通的障碍。为了解决这一问题，沃峰科技推出了海外版客户

06-18
苹果的新iPad很棒，但我和你都不会买它

从某种程度上来说，苹果终于让iPad Pro复活了。今年的新款 iPad Pro 是有史以来最薄、最轻的 iPad Pro，同时在性能方面毫不妥协，尤其是屏幕性能。与前几年相比，由于采用了mini LED屏幕，整机的厚度、重量、功耗都大幅增加。可以说，最新的iPad Pro终于回到了硬件迭代的“

06-17
如果 iPhone 在美国制造，会卖多少钱？

编者按：美国总统大选正如火如荼地进行。一些反对自由贸易的候选人表示，苹果应该生产自己的手机。美国麻省理工学院技术评论网站发表了一篇文章阐述了这一观点。在这篇文章中，作者对如果 iPhone 能够在美国生产会怎样提出了一些假设。在论证假设的过程中，我们可以理解为

06-18
中国新锐茶饮品牌“茶小空”母公司获超亿元A轮融资

36氪独家获悉，中国新锐茶饮品牌“茶小空”母公司近日完成过亿融资元A轮融资，由光速中国领投，老股东DST、五源资本继续支持，动能资本跟投，棕榈资本担任独家投资方。据官方介绍，该公司已联手行业院士成立专门研发机构，将继续专注于以茶饮料为代表的中国健康赛道。

06-18
首次发布 -量产全球领先高性价比3D CV相机，卢深视完成A+轮融资

投资界消息（微信ID：pedialy），北京卢深视科技有限公司，全栈提供商3D机器视觉技术，已于近期完成A+轮融资，投资方包括广州华诚创业投资管理有限公司、重庆君岳共享高科技股权投资基金合伙企业（有限合伙）等。据了解，本轮融资将主要用于业务布局、团队强化以及光学实验室

06-17
杨元庆出来直播，联想创新有诚意吗？

6月9日，联想在美国举办盛大的创新主题大会Tech World。 “创新”和“转型”是联想这两年持续输出的关键词，也是联想面临的最大压力。今年，联想也为业务转型做了很多准备，包括集团架构重组、魔工工厂回归手机业务等；在电视业务方面，一位与联想关系密切的人士向雷锋网表示

06-17
欧盟的《芯片法案》目标能否实现？

中新社北京2月22日电(记者刘玉英)今年2月初，欧盟颁布《芯片法案》，提出年内将欧洲半导体全球市场份额翻倍至20%。这个目标能实现吗？据公开披露，《芯片法案》计划投资超过1亿欧元来提振欧洲芯片产业，减少欧洲对美国和亚洲企业的依赖。《芯片法案》提出了三个主要方面。

06-08
美国网约车公司Lyft削减成本，预计第三季度实现盈利

据报道，美国网约车公司Lyft表示，尽管受到新冠病毒大流行的影响，但经过调整后，公司今年仍可实现盈利该公司第三季度实现盈利，比之前的目标提前了三个月，预计网约车需求将在今年第二季度开始回升。消息公布后，该公司股价在盘后交易中飙升9%至58.65美元。 Lyft预计，第二

06-18