首页 > 科技未来 > 内容

IDEA 首席科学家与张家兴：大模特正在形成新的生态位，连有志者都有机会

发布于：2024-06-18 编辑：匿名来源：网络

正文 |幸芙编辑|自2016年科学家开发出第一个“国际象棋”AI程序以来，AI已经发展了近70年。

这期间几经坎坷，但有一条主线贯穿其中：那就是“建模”——“模型”在人工智能中占比越来越高。

随着大型语言模型 ChatGPT 的出现，这一趋势达到顶峰。

“我们坚信，未来的人工智能将是模型的世界，模型的作用怎么强调都不为过。

” 7月22日，在极客公园主办的AGI Playground大会上，IDEA（粤港澳大湾区数字经济）研究院认知计算对话科学家自然语言主席张家兴。

2008年，张家兴带领IDEA团队创建了中国最大的开源预训练模型系统“封神榜”，堪称模型的“先驱”。

他们见证了大模型带来的“范式转变”。

张家兴认为，这种转移包括两个关键词，“消失”和“形成”。

“消失”是指随着ChatGPT通用大模型的到来，过去的信息提取、问答、文本输出等特定类型的模型正在消失。

“形成”是指大模型背后对工程能力的考验，从模型的诞生到微调和落地，都会形成新的生态位。

IDEA研究院也在新的生态领域进行布局。

除了开发全能力模型——目前，IDEA基于LLaMa生成了“子牙”通用大模型，已应用于数字人物、文案等场景。

大约一个月前，他们还训练了一系列专家模型，比如多模态模型、代码模型、写作模型、对话模型等，后者可以帮助用户撰写文章、新媒体文案、直播脚本、宣传海报，甚至网络小说。

张家兴认为，在这个庞大的生态系统中，创业者可以根据自己的优势，考虑自己想要占据哪个生态位。

“任何有兴趣加入大型模型领域的人都可以在其中找到自己的位置，”他说。

以下为极客公园摘编张家兴在AGI Playground大会上的演讲全文：在极客公园主办的AGI Playground大会上，张家兴发表《大模型时代：今年新范式、新生态》演讲我们必须被称为大模特。

当我们谈论 AGI 时，我们总是认为人工智能中的大型模型是理所当然的。

往前推，即使推到2010年，很重要的事情就是“深蓝”击败了“卡斯帕罗夫”。

即使那个人工智能系统也没有深度学习模型。

整个人工智能的发展历程始于2007年，至今已有70年的历史。

虽然AI经历了几起潮起潮落，但我们可以发现AI的发展始终是沿着一条线的，这就是AI建模的过程——模型在AI中所占的比例越来越强。

今天我们坚信，未来的人工智能将是模型的世界，我们对模型的重视怎么强调也不为过。

张家兴谈到人工智能的建模过程。

我们都说这个大模型是“技术范式”的改变，可以概括为两个关键词：“消失”和“形成”。

“消失”是指类型的消失。

半年前，整个AI领域充斥着各种类型的AI结构和任务。

比如在结构上，有BERT、T5等各种模型结构。

比如任务方面，有分类、信息抽取、摘要撰写、问答等各种任务，但随着通用大模型时代的到来，这种多样性正在消失。

现在，唯一的模型结构是GPT，唯一的任务是文本输入和文本输出。

因此，之前的AI概念，比如句子分析、关键词等概念，已经逐渐淡出了我们的视线。

而且，当今模型的使用不再由技术提供商决定，而是由使用它的客户决定。

而“形成”是指生产链的形成。

模型的构建需要巨大的资源投入，很少有人能够独自完成这项任务。

它需要一个庞大的团队，背后有大量的计算能力来打磨它。

从模型最初的构思，到中间各个阶段的微调，再到最终的实施，这就构成了一个完整的生产链。

从“消失”与“形成”，我们可以看到大模型的“范式转变”。

有时候，技术的进步是无情的，不以个人意志为转移。

新的技术范式将取代旧的技术范式。

那么，大型模型作为这种新技术范式的价值是什么？我认为它带来了四个全新的价值： 1、全新的理解能力。

在自然语言理解方面，当前的大型模型远远超过了之前的所有模型。

它似乎真的明白我们所说的每一句话的意思。

虽然答案可能不完全准确，但它们提出了新的理解水平。

2 全新的工具它不仅是提高效率的工具，而且可以将人们从繁重的劳动中解放出来。

它也是一种创造性的工具，可以创造人类无法创造的东西。

例如，去年扩散模型展示了其生成图表的能力。

3 新接口以前我们必须编写程序来访问数据和API，但现在，我们似乎不再需要编写繁琐的代码了。

我们只需要用自然语言来描述它们，大模型就可以自动生成代码。

4 新引擎大模型不仅仅是单点能力，它可以作为驱动信息检索、对话生成、甚至故事创作的引擎。

大车型也带来了新的生态，就是如何与行业融合的问题。

我们认为大模型不仅仅是简单的 API 或不可变模型。

我们强调，上游企业生产出模型后，下游客户必须进行进一步的培训，才能完成最后一公里。

这样，模型就可以嵌入到每个客户自己的场景中。

随着模型表现更好，会收集更多数据，从而增强模型。

这样才能真正带动整个行业的发展。

在这个新的生态系统中，最上游的是制造基础模型的公司。

在基本模型之下，有许多团队专注于特定功能或领域的模型。

未来，我们将与解决方案公司、云厂商、硬件厂商合作，打造多种产品，最终服务于老牌企业和政府。

张家兴所描述的大模型新生态，涉及到很多从基础模型到真正落地的环节和环节，也催生了很多新的生态位。

我觉得大家可以结合自己的优势，思考自己想要在这个生态中占据一个什么样的位置。

事实上，任何有兴趣加入大型模型领域的人都可以在其中找到自己的位置。

《姜子牙》大模型背后我们的团队已经成立两年了。

从我们过去的经验中，我们可以清楚地看到这种范式变革对我们的影响。

直到去年年底，我们正在开发大量具有不同模型结构和任务类型的开源模型。

短短一年时间，我们开源了98个模型，创下了中国领域的开源记录。

然而，去年年底，屠文森的模型突然成为热门产品。

于是我们开始转向，做了第一个开源的中文稳定扩散模型，我们称之为“太乙”模型。

我们希望跟上大型模型的技术范式变化。

在当前通用大模型时代，我们团队加班加点的就是为中国人培养最好的开源基础大模型。

这就是大家所熟知的 LLaMA2。

我们训练了 20B 个代币。

与之前训练的“ziya-LLaMA-13B”模型相比，训练速度提升了38%，彻底解决了训练过程中“训练”不稳定（训练异常）的问题。

在训练了20B个token后，LLaMA2解决了训练过程中“训练”不稳定的问题。

这个模型我们训练好之后就会完全开源，商业应用不会有任何限制。

同时，我们承诺会继续训练这个模型，希望为整个大型模型社区提供最好的开源和商用的模型库。

在当前的技术范式下，今年ChatGPT的推出让很多人兴奋不已，表示通用大模型将颠覆各行各业。

然而，随着时间的推移，我们冷静下来发现，大模型其实只是对现有场景的净化和优化。

因此，我们认识到大模型应用在垂直行业、领域和能力上仍然存在很多可能性和机会。

所以大约一个月前，我们团队制作了一系列专家模型，比如多模态模型、代码模型、写作模型、会话模型等，其中很多已经发布，并且已经达到了该领域最好的水平。

我们最近开源了一个中文协作模式，叫做“子牙写作”。

我们希望这个模型能够成为一个开箱即用的助手，为企业和个人提供效率提升的支持。

比如政府人员可以请子牙文帮忙写灾害情况报告，或者写领导人在开幕式上的讲话，因为这样很符合政策报告的风格。

此外，还可以解放中文社区的创作者、运营者和营销者，帮助撰写各种类型的文章、文案、软文，甚至创作优秀的短篇小说甚至古幻网文。

小说。

我们可以看到它在章节结构逻辑和故事情节方面都有着非常不错的表现。

我们还开发了一个仅使用 1 亿个参数的检索包。

它在法律和金融领域的效果比目前的一些解决方案更好，甚至比目前最好的开源向量模型还要好。

我们的工具包还可以成为金融行业的小助手，为研究人员和分析师提供帮助。

为什么我们能生产出这么多高质量的模型？背后是我们的很多积累，包括三阶段训练体系（预训练PT、有监督微调SFT、人类反馈学习RLHF），包括大量高质量数据的积累、一些自研算法，并将其沉淀到我们的培训体系中。

我们的每个模型都支持开源和商业版本，并且我们授权合作伙伴进行训练和微调，允许他们在自己的场景中进行私人训练。

从小到大，我们团队的变化也体现了当前整个大模型领域技术范式的变化。

现场提问 IDEA团队接受现场提问问：您对未来的硬件推理架构有何看法？未来的硬件是长期“练推”，还是会有专用推理芯片的机会？张家兴：原来我们有两种类型的芯片：训练和推理，但现在的推理芯片显然无法适应今天的大型模型。

所以目前基本上从硬件限制来看，“训练推合一”比较常见。

而且，训练和推送一体化的一大优势就是可以复用算力。

我们推断它可能并不总是满负荷的，所以我们可以充分利用低谷时间进行训练。

这也是从经济时间的角度考虑的。

未来，推理芯片仍然有其意义。

在一些场景，比如移动终端、边缘计算或者车载设备，仍然需要专门定制的推理芯片。

即使在云端和服务器中，如果推理芯片能够在低功耗或者其他方面进行更多的优化，那么它仍然是有意义的。

我觉得未来还是应该有专门的芯片做专门的事情。

问：对于一些垂直应用，应该从哪些角度收集数据比较好？如何构建高质量的数据集？张家兴：其实我们所有的数据都是慢慢收集的。

从一开始，只有二十或三十个数据集。

但是逐渐通过训练，比如说缺少哪一部分的能力，我们就会有针对性地收集一部分这样的数据，同时我们也会积累一些自己的经验，比如一些数据的处理。

最后，如果没有，我们就自己构造一些数据。

比如多人对话等，我们里面有各种不同类型的数据集。

问：为什么要制定这么多专门的胜任力模型？为什么不在同一个模型上增强这两种功能呢？张家兴：我们有几个考虑。

首先是我们提前选定了这样的模型尺寸。

选择此型号尺寸后。

您希望这个模型具有哪些功能？这是在有限情况下提出的建议。

这是一个非常大的成本优势。

这时候我想把所有的能力都放到一个大的模型里，但是这些能力在时间和空间上都是互斥的。

就空间而言，某些能力是相互排斥的。

IDEA 首席科学家与张家兴：大模特正在形成新的生态位，连有志者都有机会

比如我们做逻辑推理题的时候，比如数学题和写作题，它们是有冲突的。

另外，还有时间上的冲突。

在某个时刻，某种能力是最强的，但其他能力可能不是很强。

由于下游场景只需要单一能力，我们不妨只选择某些数据集来训练某些任务，这是一个专用模型。

问：您提到“飞行训练”不稳定的问题已经解决。

这是怎么解决的？张家兴：这里最关键的一点是，第一是我们对训练进行了调整。

我们在分布式训练的时候，在源码层做了一些修改。

确实，训练的稳定性要强很多。

当我们训练Ziya-LLaMA-13B时，该训练集的曲线变得稳定。

我们是一个很大的模型团队，非常注重训练技术，这也是我们能够持续做出好模型的保证。

问：关于公共领域大模型和私有化大模型的讨论，模型是否必须私有化？比如我想做一个to C应用，不可以私下部署吗？张家兴：首先，我们发现我们的合作伙伴有一些数据安全合规和隐私需求，他们的数据无法使用公共模型进行训练。

其次，他们需要有非常深入的场景和定制需求。

无论是给B的产品，还是给C的产品，他们都想用在自己的场景中。

此时，公共大模型或通用大模型库已无法完全满足他们的所有需求，因此私有化培训和私有化部署就成为他们的必备选择。

站长声明

标签：

上一篇：第一款搭载骁龙820的VR一体机是什么？我们来看看国内某厂商的这款产品- CES 2016

下一篇：唱吧CEO陈华：未来将在创业板上市，软硬件营收比例基本保持不变

谁将成为北交所首个股票孵化器？

作者｜杜航编辑｜刘二来源｜直通北京证券交易所 2019年12月16日，上海欣泽创业投资管理股份有限公司在全国中小企业股份转让系统挂牌。从此，新泽创业又多了一个名字——国内首家新三板挂牌的众创空间。五年后，这家创造历史的众创空间选择在新年伊始终止在新三板挂牌。紧随

06-18
宇宙最强CRO的崛起，是“保守主义”的胜利

如何成为*CRO？Medpace崛起的故事给市场带来了不同的答案：“保守主义”或许更可靠。 Medpace的保守体现在两点：一方面，公司坚持只服务接受自己理念的客户，即从第一阶段到最终关键临床终点都可以委托给公司的一站式服务;另一方面，公司对客户比较挑剔，更倾向于选择资金实力

06-18
我去参加了中国最大的Web3聚会，发现人们想要的并不是Web3

01。危险的气氛顿时变得凝重起来。面前的漂亮女孩不经意地皱起了眉头，盯着朋友递给她的手机屏幕，不知道该输入什么。 10秒前，我们坐在这家咖啡馆里开心地聊天，气氛很融洽，直到我们提出互发微信。时间静止了片刻。一位在国外加密货币交易所工作的女孩略显尴尬地解释道

06-18
贾跃亭要回中国了？

日前，乐视向媒体发出邀请函，宣布将于5月18日举办乐视智能生态大会，并通过乐视超级卫视、乐视视频进行现场直播。值得注意的是，请柬上有一个挥手的人影，与贾跃亭十分相似，而且还写着“我回来了！”。

06-17
「奇奇科技」获数千万美元A轮融资

「奇奇科技」完成数千万美元A轮融资，老虎基金领投，宽带资本跟投，寰亚资本独家投资。奇奇科技成立于今年7月，面向现代服务业，专注于项目管理平台、成本控制管理平台和管理会计平台。

06-17
亚马逊云部门推出新芯片与英特尔、英伟达竞争

亚马逊公司的云计算部门周二推出了两款新的定制计算芯片，旨在帮助其客户降低使用英特尔和英伟达芯片的成本。亚马逊年销售额达7亿美元，是全球最大的云计算提供商，也是数据中心芯片的最大买家之一，AWS将其计算能力出租给其客户。自 2016 年收购一家名为 Annapurna Labs 的

06-08
天地一号，广东人支持的IPO

广东常见饮料要IPO了。投资界——天天IPO获悉，天地一号已于近日向证监会广东监管局提交公司公开发行股票并在深交所主板上市的辅导材料和备案材料。指导机构为中信证券。 20世纪90年代，陈生偶然了解到一种新的饮用方式“雪碧加醋”。他立刻意识到了巨大的市场前景，随后创

06-18
云原生：新生产力的飞跃

关键词：云原生创建者：阿里巴巴研究院、中国信息通信研究院、阿里云联合发布日期：2020年4月报告简介什么样的企业是数字原生企业？企业如何通过云原生架构实现向数字原生的跨越？如何加速全社会数字化创新进程？阿里巴巴研究院、中国信息通信研究院、阿里云联合发布云原生产

06-18
首次发布 -维京资本联合Egretia、InVault共同发起成立业界首支区块链游戏产业协同管理基金

投资界（微信ID：pedaily）9月7日消息，维京资本宣布将与HTML5区块链联手引擎及平台Egertia与数字资产管理平台InVault共同发起设立业界首支区块链游戏产业协同管理基金（以下简称“维京游戏产业基金”）。该基金将依托维京资本的专业投研能力，以及Egertia在游戏行业的深厚背

06-17
新世嘉获新一轮战略投资，中微半导体投资

投资社区（ID：pedaily）6月16日报道，深圳市新世嘉半导体科技有限公司（以下简称：新世嘉）近日获得新一轮战略投资的战略投资。 A轮战略投资，投资方为中微电子。投后估值未披露，占比4.95%。据了解，中微半导体是科创板上市公司。是一家立足中国、面向世界的微加工高端装

06-18
光大控股最新业绩出炉：一年退出51个项目，收回现金77亿港元

据投资界3月19日消息，中国光大控股股份有限公司（简称“光大”、股票代码：.HK）公布截至12月31日止年度业绩。面对2019年充满挑战的宏观经济和私募行业形势，光大控股顺应时代潮流，快速推进战略转型，实施了多项迅速采取措施。全年基金管理规模约1亿港元，较年底增长9%，

06-17
对外投资合作指南（美国）——数字经济发展及相关规定

1 数字基础设施情况 1.1 网络基础能力美国是全球最早开展5G商用的国家之一。截至年底，美国5G信号已覆盖75%的人口。美国运营商早期部署的5G网络大多使用毫米波。为推动5G网络发展，美国政府于今年8月启动5G频谱拍卖计划，并逐步向市场释放部分军用中频段。 2020年7月1日世

06-18