首页 > 科技未来 > 内容

大型模型训练有多少卷？揭开大模型计算能力的神秘面纱

发布于：2024-06-18 编辑：匿名来源：网络

利用40年的全球天气数据，利用GPU卡进行预训练，2个月左右的时间，训练出参数量达1亿的大型盘古气象模型。

这是清华大学毕业三年的毕凯峰培养大模特的故事。

但从成本角度来看，正常情况下，一块GPU的成本为7.8元/小时，毕凯峰盘古气象模型的训练成本可能会超过1万元。

这仍然是气象领域的一个大型垂直模型。

如果训练一般的大模型，成本可能会高出一百倍。

据统计，目前国内规模达10亿参数的大型模型已超过100个。

然而业界趋之若鹜的大机型“炼金术”却面临着高端GPU卡难以解决的问题。

算力成本高昂，算力和资金匮乏成为行业面临的最直观问题。

1、高端GPU还缺多少？ “缺了，当然缺了，但是我们能做什么呢？”当被问到是否缺乏计算能力时，一位大工厂的高管脱口而出。

这似乎已经成为业界公认的一个无法解决的问题。

巅峰时期，一台NVIDIA A服务器的价格已经提升到2万到30万元，单台A服务器的月租价格也飙升到5万到7万元/月。

但即便如此，芯片可能仍然高价买不到，一些算力供应商也遇到了供应商跳票等以前很难遇到的怪事。

云计算行业高管周立军也表达了类似的感受：“算力短缺确实存在，我们有很多客户想要高端GPU资源，但我们能提供的并不能完全满足广阔的市场需求。

”某云服务商配备A的高性能计算集群已售罄。

事实证明，高端GPU短缺的问题短期内不会在整个行业得到解决。

随着大型机型的爆发，市场对算力的需求快速增长，但供给的增长速度却远远跟不上。

虽然从长远来看，算力供给肯定会从卖方市场转向买方市场，但这需要多长时间仍是未知数。

每家公司都在计算自己手里有多少“货”（Nvidia GPU），甚至以此来判断市场份额。

例如，如果手中有接近10,000张卡，并且市场总卡数为100,000张，那么份额为10%。

??“到今年年底，库存人数可能会达到4万人。

如果市场是20万的话，可能会占到20%的市场。

”一位业内人士举例说。

一方面无法买卡，另一方面大模型训练的门槛并不像行业宣传的那么容易“上手”。

如上所述，毕开封盘古气象模型的训练成本可能超过万元。

但需要注意的是，碧开封盘古气象大模型是在盘古通用大模型基础上训练的垂直大模型，参数数亿级。

如果要训练一个具有十亿个甚至更多参数的通用大型模型，成本可能会增加十到一百倍。

“目前最大的投入是训练，如果没有数十亿的资金投入，就很难继续打造大型模型。

”腾讯集团副总裁、云与智慧产业群COO、腾讯云总裁邱跃鹏透露。

“跑得快，至少在钱烧完之前，能出成果，拿到下一轮‘融资’。

”一位创业者形容目前大车型的“战况”，“这条路是死路。

” ??如果没有数百亿的资金支持，就很难出头。

”在这种情况下，业内普遍的看法是，随着大机型市场的竞争，市场也会从狂热转向理性，企业也会根据预期的变化控制成本、调整策略。

没有条件就必须创造条件——这似乎是大模型中大多数参与者的心态，至于如何创造条件、处理现实问题，每个公司都有很多方法。

由于高端GPU芯片的短缺，而且中国市场上可用的GPU不是最新一代，而且性能通常较低，企业训练大型模型需要更长的时间，这些企业也在寻找一些创新。

弥补计算能力不足的方法之一是使用更高质量的数据进行训练，以提高训练效率。

近日，信通院率先发布了《行业大模型标准体系及能力架构研究报告》，其中提到了对数据的评估。

大型模型层。

报告建议，在数据质量方面，由于会对模型的效果产生很大影响，因此建议引入人工标注和确认，至少选择一定比例的原始数据进行标注，以便构建高质量的数据集。

除了通过高质量数据降低大模型成本外，对于行业来说，提升基础设施能力，实现两周以上1000大卡稳定运行不掉卡，是技术难点，也是构建可靠基础设施和稳定运行的方法之一。

优化大模型训练。

“作为云服务提供商，我们会帮助客户建立稳定可靠的基础设施。

因为GPU服务器卡的稳定性会很差，任何故障都会中断训练，导致整体训练时间增加。

高性能计算集群可以提供给客户更稳定的服务，减少训练时间，解决一些算力问题。

”周立军说。

同时，算力卡资源调度也考验服务商的技术能力。

火山引擎华东互联网解决方案负责人徐伟告诉钛媒体，拥有算力卡资源只是一方面。

如何对卡资源进行调度并真正投入使用，是一个比较有挑战性的核心和工程能力。

“通过将一张卡拆分成许多小卡，尝试实现分布式、精细化调度，我们可以进一步降低算力成本。

”徐伟说。

网络还影响大型模型训练的速度和效率。

大型模型训练往往需要数千卡路里，连接数百台GPU服务器所需的网络速度极高。

如果网络拥塞，训练速度会很慢，效率会受到很大影响。

“只要一台服务器过热崩溃，整个集群可能就得停掉，训练任务就得重新开始。

大型模型训练有多少卷？揭开大模型计算能力的神秘面纱

这需要非常高的云服务运维能力和问题解决能力。

”邱跃鹏说。

一些制造商也采取了不同的方法。

从云计算架构向超级计算架构的转变也成为降低成本的一种方式。

也就是说，在能够满足用户需求的情况下，非高吞吐量的计算任务和并行任务场景下，云超算的价格大概是云超算的一半左右，然后通过性能优化，可以将资源利用率从30提升到10%左右。

% 至 60%。

此外，还有一些厂商选择使用国产平台进行大型模型训练和推理，以取代单卡难求的Nvidia。

“我们和华为联合发布了科大讯飞Spark一体机，能够在国产平台上进行训练和推理，这是非常了不起的。

我特别高兴地告诉大家，华为的GPU能力现在已经和英伟达一样好了。

”任正非非常重视。

” “华为三位董事到科大讯飞工作，是特级，现在已经做到了和英伟达的A级媲美”，科大讯飞创始人兼董事长刘庆峰曾表示。

以上每种方式都是一个比较大的工程，普通企业很难通过自建数据中心来满足自己的需求。

很多算法团队都会选择最专业的算力厂商进行支持。

并行存储也是很大的成本，还有技术能力、相应的故障率保证等也是硬件成本的一部分。

当然，我们甚至还要考虑IDC可用面积的电力成本、软件、平台、人员成本以及其他运营成本等等。

只有千卡级别的GPU集群才会产生规模效应。

选择算力服务商意味着边际成本为零。

中国工程院院士、中国科学院计算技术研究所研究员孙宁辉在演讲中也指出，AIGC带来了人工智能产业的爆发，以及大规模应用智能科技的发展存在一个典型的长尾问题，即人工智能能力较强的部门（网安、九院九气象局等）、科研机构和大中型企业仅占20个左右%的算力需求主体，另外80%是中小微企业。

此类实体受限于公司规模和预算，往往难以获取算力资源，或者受限于算力价格高昂，难以在AI浪潮中获得发展红利????时代。

因此，要实现智能技术的大规模应用，让人工智能产业既“大众化”又“大众化”，就需要大量廉价好用的智能算力，让中小微企业企业可以方便、廉价地使用计算能力。

无论是大型模型对算力的迫切需求，还是算力应用过程中需要解决的各种问题，需要注意到的一个新变化是，算力已经在市场需求和应用过程中。

技术迭代。

，已成为一种新的服务模式。

3.探索算力服务新模式。

我们在大型模型中争夺什么计算能力？要回答这个问题，我们需要从算力服务开始。

从类型上看，算力分为通用算力、智能算力和超级算力，而这些算力成为服务，是市场和技术双重驱动的结果。

《算力服务白皮书》（以下简称《白皮书》）将算力服务定义为以多元化算力为基础，链接算力网络，以提供有效算力为目标的算力产业新领域。

。

算力服务的本质是通过新计算技术实现异构算力的统一输出，并与云、大数据、人工智能等技术交叉融合。

算力服务不仅仅是算力，它是算力、存储、网络等资源的统一封装，算力以服务（如API）的形式交付。

如果你明白了这一点，你就会发现，争夺NVIDIA芯片的人，有很大一部分其实都是算力服务商，也就是算力生产商。

实际在前端调用算力API的行业用户只需提出相应的算力需求即可。

据钛媒体App了解，从软件端来看，所有软件交互生成的大模型的用途分为三种。

第一种是大模型API调用，各公司都有报价，按价格结算；第二种是它自己的小模型。

，自己购买算力，甚至自己部署；第三种，大型机型厂商与云厂商合作，即独家部署云，按月付费。

“大体就是这三种，金山办公目前主要采用API调用，内部小模型也搭建了自己的算力调度平台。

”金山办公副总裁姚东告诉钛媒体App。

算力产业链结构图，来源：中国信息通信研究院也就是说，在算力结构产业链中，上游企业主要完成通用算力、智能算力、超级算力、存储和网络的实现计算能力。

提供服务配套资源。

比如，在大规模算力争夺战中，NVIDIA属于上游算力基础资源供应方向，向行业供应芯片。

其中，浪潮信息等服务器厂商库存上涨也受到市场需求影响。

中游企业主要是云服务商和新型算力服务商。

他们的作用主要是通过算力编排、算力调度、算力交易技术实现算力生产，并通过API等方式完成算力供应。

。

上面提到的算力服务商、腾讯云、火山引擎都处于这个阶段。

中游算力服务企业的服务化能力越强，申请门槛越低，越有利于算力普惠、泛在发展。

下游企业是依靠算力服务提供的算力来产生和制造增值服务的产业链参与者，例如行业用户。

这些用户只需提出需求，算力生产者就会根据需求分配相应的算力，完成用户分配的“算力任务”。

这比自己购买服务器搭建大模型计算环境更具成本和技术优势。

毕凯峰在训练盘古气象模型时，应该是直接调用了华为云的高性能计算服务，华为云是盘古模型的底层。

那么使用算力或者付费算力的过程对于其他大型模型公司来说会有什么不同吗？ 4、算力商业模型迭代 ChatGLM是首批推出的通用大型模型之一。

以智普AI的ChatGLM算力的使用为例。

据公开披露的信息，智浦AI使用了多项国内主流AI算力服务。

商业。

“理论上，一切都应该有用。

”知情人士表示，这可能还包括国内主流算力服务商/云服务商。

按量付费、按年、按月计费是当前算力服务的主流模式。

使用需求大致有两类。

一是选择对应的算力服务实例。

在某云服务商的官网界面上，可以提供NVIDIA驱动的算力服务。

高性能GPU服务器，配备A、A、V三种主流显卡。

算力服务商提供的高性能计算GPU显卡类型。

另一种是选择相应的MaaS服务平台，在MaaS平台上对大模型进行全行业的微调。

以腾讯云TI-ONE平台按量付费定价为例，8C40G V*1的配置价格为20.32元/小时，可用于自动学习-视觉、任务建模、笔记本、和视觉建模。

业界目前也在推动计算服务的“计算网络融合”。

通过对计算任务、计算网络资源状态等信息的综合判断，可以形成支持跨架构、跨地域、跨服务商调度的计算网络编排方案。

，并完成相关资源的调配。

比如，只要存入一定数量的钱到算力网络中，算力网络中的分区就可以随意调用。

?根据应用特点，选择最合适的分区、最快的分区、性价比最高的分区，然后按照时长计费，从预存资金中扣除费用。

对于云服务提供商来说也是如此。

算力服务作为云服务的独特产品，让他们能够快速参与算力产业链。

工信部数据显示，2016年我国总算力达到EFLOPS，位居全球第二。

截至今年，中国算力产业规模已达1.8万亿。

大模型算力极大加速了算力产业的发展。

一种理论认为，现在的算力服务实际上是一种“卖电”的新模式。

但根据分工不同，部分算力服务商可能需要帮助用户做更多的系统性能调试、软件安装、大规模作业运行监控和运行特征分析，即最后一公里运维的一部分工作。

随着大型模型高性能计算需求的常态化，云服务衍生的计算服务迅速进入大众视野，形成了独特的产业链和商业模式。

但在算力行业因大机型爆发之初，高端GPU的短缺、算力成本高昂、“核”的争夺形成了属于这个时代的独特风景。

“现阶段关键的是供应链上谁能拿到这张牌。

英伟达目前是整个行业的领导者，所有市场都被它控制着。

这就是现状。

”知情人士对此发表评论。

目前的情况似乎是，当供大于求时，谁能拿到卡，谁就能交付业务。

但并不是所有人都在抢“牌”，因为短缺是暂时的，问题总会得到解决。

“做长期研究的人其实并不去抢，他们可以正常等待，因为他们不会死。

现在只有一批初创公司认真抢卡。

他们要确保他们可以生存到明年。

”上述人士说道。

在诸多不确定因素中，算力服务化是确定性趋势。

算力服务商要做的就是在大模型回归理性、市场趋势快速变化的情况下，随时做好准备，未雨绸缪。

【本文由投资界合作伙伴微信公众号授权：钛媒体。

本平台仅提供信息存储服务。

】如有任何疑问，请联系投资界（）。

站长声明

标签：

上一篇：迪哲药业完成1亿美元A轮融资，由礼来亚洲基金领投

下一篇：《红筹博弈》连载：民企经历红筹上市狂欢与资本外逃

一家号称“真相帝”的公司，一个DEMO就能估值2亿

今天刀哥要说的公司，相当具有颠覆性。他们做的商业调查大数据产品经常刷爆朋友圈。很多企业在注册商标的时候，都想把能想到的名字都注册一遍。比如，网友发现老干妈一次性注册了老干娘、神老马、老阿姨等商标……抢注各种商标也是如此。毁三观，比如有一家历史上名字最长

06-17
iPad mini将为谁“复活”？

“即使只是换处理器，也不必要求全面屏。 ”作为多年iPad mini老用户的小志如实说道。 ▲ iPad mini 第五代（年份型号）其实他用的是“最新”的 iPad mini 第五代（以下简称“iPad mini 5”），但为什么叫“老款”呢？仅仅因为iPad mini 5是2017年发布的，现在已经快三年了。

06-21
MemVerge获1900万美元战略投资，推动数据中心“大内存计算”趋势

雷锋网5月12日报道，MemVerge今日宣布完成英特尔等战略投资者1万美元融资、思科、NetApp 和 SK 海力士。投资者方面，该公司此前的投资者高榕 Capital、Glory Ventures、Jerusalem Venture Partners、LDV、Lightspeed Venture Partners和Northern Light Venture Partners也参

06-18
全场景互动CEM服务商“小易数智”完成数千万元天使轮融资

据投资界（ID：pedaily）7月13日消息，近日，全场景互动CEM服务提供商“小医数智”宣布完成数千万元天使轮融资，由深创投领投，国宏嘉信资本跟投，青通资本跟投。小蚁数智创始人&CEO宋博表示，本轮融资将主要用于SaaS产研团队的扩充、武汉产研基地的建设以及北京本地市场和

06-18
《知行合一》已完成近千万元天使轮融资

《知行合一》近日完成近千万元天使轮融资。本轮融资由天使投资人黄建个人投资完成。本次融资所筹资金将主要用于人才储备和补充流动资金。智行合一成立于2019年10月，是一家总部位于广东珠海、专注于为失能、半失能老年人提供医养结合的服务型企业。服务范围涵盖老年慢性

06-17
汽车智能科技公司“美嘉科技”完成超亿美元融资

36氪独家获悉，汽车智能科技公司“美嘉科技”近期完成超亿美元融资，领投由超越资本。湾区共同家园发展基金及南山资本、红点中国、山航资本等老股东也参与投资。泰合之都充当专属财务顾问。美嘉科技CEO庄莉透露，本轮融资发生得很快。该项目于去年12月底启动，今年3月竣工

06-18
外资资管巨头蜂拥而至

10月以来，上海迎来了包括负责人在内的多家知名外资金融机构的到访。 10月19日，上海市地方金融监管局局长周小全会见摩根士丹利投资管理亚洲区首席运营官、摩根士丹利基金管理（中国）有限公司首席运营官托德科尔特曼一行。 10月16日，周小全会见法国农业信贷银行（中国）有限

06-17
外媒：TikTok讨论不出售美国业务的解决方案

当地时间9月10日，据《华尔街日报》报道，TikTok母公司字节跳动正在与美国政府讨论可能的解决方案，以避免TikTok广受欢迎的应用程序短视频正在出售其全部美国业务。自从中国政府采取措施加大TikTok向微软等美国科技公司巨头出售业务的难度以来，围绕TikTok不出售的讨论就变得

06-18
集成电路芯片开发商“中科瀚天下”获3000万元C轮融资

据投资界11月19日消息，集成电路芯片开发商“中科瀚天下”于今年8月完成万元C轮融资，同心企业、浑璞投资、南京科芯为新股东。据了解，中科瀚天下成立于2007年，是一家集成电路芯片开发商。主要从事射频/模拟集成电路和SoC系统集成电路的开发，以及应用解决方案的研究、开

06-17
“易小象”完成Pre-A轮融资，南开大学创新基金注资

据6月10日消息，在线少儿象棋教育公司“易小象”近日完成Pre-A轮融资，获南开大学创新基金注资。本轮融资之前，公司还获得了北塔资本的天使轮投资。本轮资金将主要用于产品技术开发、人才引进和教学服务质量提升。 “玩小象”成立于2007年，专注于4-12岁儿童的象棋启蒙教育

06-17
20亿元专精特新（金华）母基金在金华启动

据投资界（ID：pedaily）消息，3月28日下午，浙江省专精特新（金华）基金基金协议签字仪式在金华举行。继浙江省科技创新专项基金（二期）之后，又一省级“四”专项资金落户金华。浙江省专精特新（金华）母基金注册在金华市，总规模20亿元。由浙江省产业基金、金华市产业基

06-17
天下无贼反信息诈骗联盟升维大数据构筑新防御体系

天下无贼反信息诈骗联盟升维大数据构筑新防御体系 2020年1月14日，全国首个反信息诈骗联盟——天下无贼反信息诈骗联盟召开新闻发布会，庆祝其成立深圳周年庆。大会以“大数据天网，新系统防御”为主题，发布了《反信息诈骗大数据报告》（以下简称《报告》），首次对欺诈产业

06-18