首页 > 科技未来 > 内容

IDEA 首席科学家与张家兴:大模特正在形成新的生态位,连有志者都有机会

发布于:2024-06-18 编辑:匿名 来源:网络

正文 |幸芙编辑|自2016年科学家开发出第一个“国际象棋”AI程序以来,AI已经发展了近70年。

这期间几经坎坷,但有一条主线贯穿其中:那就是“建模”——“模型”在人工智能中占比越来越高。

随着大型语言模型 ChatGPT 的出现,这一趋势达到顶峰。

“我们坚信,未来的人工智能将是模型的世界,模型的作用怎么强调都不为过。

” 7月22日,在极客公园主办的AGI Playground大会上,IDEA(粤港澳大湾区数字经济)研究院认知计算对话科学家自然语言主席张家兴。

2008年,张家兴带领IDEA团队创建了中国最大的开源预训练模型系统“封神榜”,堪称模型的“先驱”。

他们见证了大模型带来的“范式转变”。

张家兴认为,这种转移包括两个关键词,“消失”和“形成”。

“消失”是指随着ChatGPT通用大模型的到来,过去的信息提取、问答、文本输出等特定类型的模型正在消失。

“形成”是指大模型背后对工程能力的考验,从模型的诞生到微调和落地,都会形成新的生态位。

IDEA研究院也在新的生态领域进行布局。

除了开发全能力模型——目前,IDEA基于LLaMa生成了“子牙”通用大模型,已应用于数字人物、文案等场景。

大约一个月前,他们还训练了一系列专家模型,比如多模态模型、代码模型、写作模型、对话模型等,后者可以帮助用户撰写文章、新媒体文案、直播脚本、宣传海报,甚至网络小说。

张家兴认为,在这个庞大的生态系统中,创业者可以根据自己的优势,考虑自己想要占据哪个生态位。

“任何有兴趣加入大型模型领域的人都可以在其中找到自己的位置,”他说。

以下为极客公园摘编张家兴在AGI Playground大会上的演讲全文: 在极客公园主办的AGI Playground大会上,张家兴发表《大模型时代:今年新范式、新生态》演讲我们必须被称为大模特。

当我们谈论 AGI 时,我们总是认为人工智能中的大型模型是理所当然的。

往前推,即使推到2010年,很重要的事情就是“深蓝”击败了“卡斯帕罗夫”。

即使那个人工智能系统也没有深度学习模型。

整个人工智能的发展历程始于2007年,至今已有70年的历史。

虽然AI经历了几起潮起潮落,但我们可以发现AI的发展始终是沿着一条线的,这就是AI建模的过程——模型在AI中所占的比例越来越强。

今天我们坚信,未来的人工智能将是模型的世界,我们对模型的重视怎么强调也不为过。

张家兴谈到人工智能的建模过程。

我们都说这个大模型是“技术范式”的改变,可以概括为两个关键词:“消失”和“形成”。

“消失”是指类型的消失。

半年前,整个AI领域充斥着各种类型的AI结构和任务。

比如在结构上,有BERT、T5等各种模型结构。

比如任务方面,有分类、信息抽取、摘要撰写、问答等各种任务,但随着通用大模型时代的到来,这种多样性正在消失。

现在,唯一的模型结构是GPT,唯一的任务是文本输入和文本输出。

因此,之前的AI概念,比如句子分析、关键词等概念,已经逐渐淡出了我们的视线。

而且,当今模型的使用不再由技术提供商决定,而是由使用它的客户决定。

而“形成”是指生产链的形成。

模型的构建需要巨大的资源投入,很少有人能够独自完成这项任务。

它需要一个庞大的团队,背后有大量的计算能力来打磨它。

从模型最初的构思,到中间各个阶段的微调,再到最终的实施,这就构成了一个完整的生产链。

从“消失”与“形成”,我们可以看到大模型的“范式转变”。

有时候,技术的进步是无情的,不以个人意志为转移。

新的技术范式将取代旧的技术范式。

那么,大型模型作为这种新技术范式的价值是什么?我认为它带来了四个全新的价值: 1、全新的理解能力。

在自然语言理解方面,当前的大型模型远远超过了之前的所有模型。

它似乎真的明白我们所说的每一句话的意思。

虽然答案可能不完全准确,但它们提出了新的理解水平。

2 全新的工具 它不仅是提高效率的工具,而且可以将人们从繁重的劳动中解放出来。

它也是一种创造性的工具,可以创造人类无法创造的东西。

例如,去年扩散模型展示了其生成图表的能力。

3 新接口 以前我们必须编写程序来访问数据和API,但现在,我们似乎不再需要编写繁琐的代码了。

我们只需要用自然语言来描述它们,大模型就可以自动生成代码。

4 新引擎 大模型不仅仅是单点能力,它可以作为驱动信息检索、对话生成、甚至故事创作的引擎。

大车型也带来了新的生态,就是如何与行业融合的问题。

我们认为大模型不仅仅是简单的 API 或不可变模型。

我们强调,上游企业生产出模型后,下游客户必须进行进一步的培训,才能完成最后一公里。

这样,模型就可以嵌入到每个客户自己的场景中。

随着模型表现更好,会收集更多数据,从而增强模型。

这样才能真正带动整个行业的发展。

在这个新的生态系统中,最上游的是制造基础模型的公司。

在基本模型之下,有许多团队专注于特定功能或领域的模型。

未来,我们将与解决方案公司、云厂商、硬件厂商合作,打造多种产品,最终服务于老牌企业和政府。

张家兴所描述的大模型新生态,涉及到很多从基础模型到真正落地的环节和环节,也催生了很多新的生态位。

我觉得大家可以结合自己的优势,思考自己想要在这个生态中占据一个什么样的位置。

事实上,任何有兴趣加入大型模型领域的人都可以在其中找到自己的位置。

《姜子牙》大模型背后我们的团队已经成立两年了。

从我们过去的经验中,我们可以清楚地看到这种范式变革对我们的影响。

直到去年年底,我们正在开发大量具有不同模型结构和任务类型的开源模型。

短短一年时间,我们开源了98个模型,创下了中国领域的开源记录。

然而,去年年底,屠文森的模型突然成为热门产品。

于是我们开始转向,做了第一个开源的中文稳定扩散模型,我们称之为“太乙”模型。

我们希望跟上大型模型的技术范式变化。

在当前通用大模型时代,我们团队加班加点的就是为中国人培养最好的开源基础大模型。

这就是大家所熟知的 LLaMA2。

我们训练了 20B 个代币。

与之前训练的“ziya-LLaMA-13B”模型相比,训练速度提升了38%,彻底解决了训练过程中“训练”不稳定(训练异常)的问题。

在训练了20B个token后,LLaMA2解决了训练过程中“训练”不稳定的问题。

这个模型我们训练好之后就会完全开源,商业应用不会有任何限制。

同时,我们承诺会继续训练这个模型,希望为整个大型模型社区提供最好的开源和商用的模型库。

在当前的技术范式下,今年ChatGPT的推出让很多人兴奋不已,表示通用大模型将颠覆各行各业。

然而,随着时间的推移,我们冷静下来发现,大模型其实只是对现有场景的净化和优化。

因此,我们认识到大模型应用在垂直行业、领域和能力上仍然存在很多可能性和机会。

所以大约一个月前,我们团队制作了一系列专家模型,比如多模态模型、代码模型、写作模型、会话模型等,其中很多已经发布,并且已经达到了该领域最好的水平。

我们最近开源了一个中文协作模式,叫做“子牙写作”。

我们希望这个模型能够成为一个开箱即用的助手,为企业和个人提供效率提升的支持。

比如政府人员可以请子牙文帮忙写灾害情况报告,或者写领导人在开幕式上的讲话,因为这样很符合政策报告的风格。

此外,还可以解放中文社区的创作者、运营者和营销者,帮助撰写各种类型的文章、文案、软文,甚至创作优秀的短篇小说甚至古幻网文。

小说。

我们可以看到它在章节结构逻辑和故事情节方面都有着非常不错的表现。

我们还开发了一个仅使用 1 亿个参数的检索包。

它在法律和金融领域的效果比目前的一些解决方案更好,甚至比目前最好的开源向量模型还要好。

我们的工具包还可以成为金融行业的小助手,为研究人员和分析师提供帮助。

为什么我们能生产出这么多高质量的模型? 背后是我们的很多积累,包括三阶段训练体系(预训练PT、有监督微调SFT、人类反馈学习RLHF),包括大量高质量数据的积累、一些自研算法,并将其沉淀到我们的培训体系中。

我们的每个模型都支持开源和商业版本,并且我们授权合作伙伴进行训练和微调,允许他们在自己的场景中进行私人训练。

从小到大,我们团队的变化也体现了当前整个大模型领域技术范式的变化。

现场提问 IDEA团队接受现场提问 问:您对未来的硬件推理架构有何看法?未来的硬件是长期“练推”,还是会有专用推理芯片的机会? 张家兴:原来我们有两种类型的芯片:训练和推理,但现在的推理芯片显然无法适应今天的大型模型。

所以目前基本上从硬件限制来看,“训练推合一”比较常见。

而且,训练和推送一体化的一大优势就是可以复用算力。

我们推断它可能并不总是满负荷的,所以我们可以充分利用低谷时间进行训练。

这也是从经济时间的角度考虑的。

未来,推理芯片仍然有其意义。

在一些场景,比如移动终端、边缘计算或者车载设备,仍然需要专门定制的推理芯片。

即使在云端和服务器中,如果推理芯片能够在低功耗或者其他方面进行更多的优化,那么它仍然是有意义的。

我觉得未来还是应该有专门的芯片做专门的事情。

问:对于一些垂直应用,应该从哪些角度收集数据比较好?如何构建高质量的数据集? 张家兴:其实我们所有的数据都是慢慢收集的。

从一开始,只有二十或三十个数据集。

但是逐渐通过训练,比如说缺少哪一部分的能力,我们就会有针对性地收集一部分这样的数据,同时我们也会积累一些自己的经验,比如一些数据的处理。

最后,如果没有,我们就自己构造一些数据。

比如多人对话等,我们里面有各种不同类型的数据集。

问:为什么要制定这么多专门的胜任力模型?为什么不在同一个模型上增强这两种功能呢? 张家兴:我们有几个考虑。

首先是我们提前选定了这样的模型尺寸。

选择此型号尺寸后。

您希望这个模型具有哪些功能?这是在有限情况下提出的建议。

这是一个非常大的成本优势。

这时候我想把所有的能力都放到一个大的模型里,但是这些能力在时间和空间上都是互斥的。

就空间而言,某些能力是相互排斥的。

IDEA 首席科学家与张家兴:大模特正在形成新的生态位,连有志者都有机会

比如我们做逻辑推理题的时候,比如数学题和写作题,它们是有冲突的。

另外,还有时间上的冲突。

在某个时刻,某种能力是最强的,但其他能力可能不是很强。

由于下游场景只需要单一能力,我们不妨只选择某些数据集来训练某些任务,这是一个专用模型。

问:您提到“飞行训练”不稳定的问题已经解决。

这是怎么解决的? 张家兴:这里最关键的一点是,第一是我们对训练进行了调整。

我们在分布式训练的时候,在源码层做了一些修改。

确实,训练的稳定性要强很多。

当我们训练Ziya-LLaMA-13B时,该训练集的曲线变得稳定。

我们是一个很大的模型团队,非常注重训练技术,这也是我们能够持续做出好模型的保证。

问:关于公共领域大模型和私有化大模型的讨论,模型是否必须私有化?比如我想做一个to C应用,不可以私下部署吗? 张家兴:首先,我们发现我们的合作伙伴有一些数据安全合规和隐私需求,他们的数据无法使用公共模型进行训练。

其次,他们需要有非常深入的场景和定制需求。

无论是给B的产品,还是给C的产品,他们都想用在自己的场景中。

此时,公共大模型或通用大模型库已无法完全满足他们的所有需求,因此私有化培训和私有化部署就成为他们的必备选择。

IDEA 首席科学家与张家兴:大模特正在形成新的生态位,连有志者都有机会

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 小霸王

    小霸王

    隐退已久的段永平背后的男人段永平,突然又重新回到了公众的视野中。 上周,“小霸王文化申请破产”的消息在网络圈热传。 这位曾经的游戏机之王的命运,引起了无尽的唏嘘。 不过,小霸王随后发表官方声明澄清,破产是“自己的事件”。 与此同时,小霸王背后的那个人段永平再次

    06-18

  • 中科豪芯获近亿元A轮融资,比亚迪、麦格米特等共同投资

    中科豪芯获近亿元A轮融资,比亚迪、麦格米特等共同投资

    投资界(ID:pedaily)7月7日报道,数字信号处理器供应商“中科豪芯”近日宣布,已完成近亿元A轮融资,由比亚迪、麦格米特等行业方共同投资。 本轮融资将主要用于加速产品研发、加大团队建设以及芯片生产和批量交付。 中科浩信成立于今年1月。 主要基于RISC-V指令集架构,专注

    06-17

  • 中国超越新加坡,国家创新指数综合排名NO.1 14

    中国超越新加坡,国家创新指数综合排名NO.1 14

    创头条获悉,6月3日,中科院在浦江创新论坛上发布《国家创新指数报告》。 报告显示,中国国家创新指数位列全球第14位,比上年上升一位,是唯一进入前15名的发展中国家。 从具体得分来看,中国国家创新指数得分为72.5分,比上年提高2.6个百分点。 与英国、芬兰、法国、爱尔兰等

    06-17

  • ARM年度展:见识“智能”硬币的两面

    ARM年度展:见识“智能”硬币的两面

    11月是名副其实的“ARM月”。 ARM TechCon刚刚在北美落下帷幕,“ARM年度技术论坛”巡回上海、北京、深圳。 一周后的11月27日,即ARM的25岁生日,再次拉开帷幕并圆满结束。 数千名中国开发者和行业专家与ARM及生态系统合作伙伴一起参加了此次活动。 国内再次掀起ARM热潮,并引

    06-17

  • 天弘医疗设备ETF募资还剩2天!拟定基金经理沙川

    天弘医疗设备ETF募资还剩2天!拟定基金经理沙川

    随着疫情席卷全球,医疗器械、医疗检测公司股价出现大幅上涨。 3月1日,沙川管理的天弘中证全包医疗器械与服务ETF(73)正式推出。 发行期截止至3月3日,申购代码为73.Listen,中小企业反馈平台。 倾听用户需求,倾听创业者声音,解决中小企业痛点。 点击立即参与调查并获得

    06-18

  • 谁说手机市场不好?海力士投资26亿美元扩大产能

    谁说手机市场不好?海力士投资26亿美元扩大产能

    全球第二大存储芯片制造商SK海力士将投资3.16万亿韩元(26亿美元)推动芯片生产。 此举的目的是为了满足当前市场对手机和电脑的需求。 存储需求不断增长。 苹果公司和索尼公司的供应商周四表示,将在首尔南部清州投资 2.21 万亿韩元建设新工厂,以满足智能手机 NAND 闪存芯片

    06-18

  • 先进晶圆代工工艺价格要涨

    先进晶圆代工工艺价格要涨

    外媒报道,韩国三星电子透露有意提高晶圆代工价格。 由于三星晶圆代工主力在先进工艺,因此宣布将提价。 业界认为这是提高先进晶圆代工工艺价格的第一枪。 这也意味着晶圆代工市场的繁荣已经从成熟工艺延伸至先进工艺。 在三星之前,联电、力积电等工艺成熟的晶圆代工厂已相

    06-08

  • 科杰科技完成亿元融资,致力于自主可控大数据基础

    科杰科技完成亿元融资,致力于自主可控大数据基础

    据投资界(ID:pedaily)5月18日消息,北京科杰科技股份有限公司(以下简称科杰科技)科杰科技于今年10月宣布完成1亿元A轮融资,由华业天成资本、XVC领投,维度资本跟投,老股东考拉基金继续跟投。 据悉,本次融资将用于开发和升级国内大数据基础产品矩阵,构建综合数据能力

    06-18

  • 黑猫焦化计划国内上市

    黑猫焦化计划国内上市

    黑猫焦化计划在中国上市。 2020年9月13日,有消息称,陕西黑猫焦化股份有限公司拟在境内上市。   黑猫焦化前身为陕西黑猫焦化有限公司,成立于2017年11月,2018年12月变更为股份制公司,目前注册资本0万元,主要从事存在于焦炭、甲醇、粗苯和焦油中。 、硫酸铵、电力、蒸压

    06-17

  • 爆炸后,三星第四季度财报显示利润猛增50%

    爆炸后,三星第四季度财报显示利润猛增50%

    雷锋网1月24日报道,三星电子今日发布了第四季度及全年财报。 财报显示,三星第四季度总营收为53.33万亿韩元(约合560亿美元),与去年同期的53.32万亿韩元基本持平;营业利润为9.22万亿韩元(约合79.28亿美元)。 比去年同期的6.14万亿韩元增长50.2%。 营业利润主要来自存储

    06-18

  • 游戏开发商赢之越获B站投资

    游戏开发商赢之越获B站投资

    据投资界8月17日消息,天眼查APP显示,近日,上海赢之越信息技术有限公司发生工商变更,公司新股东为B站关联公司上海欢点信息技术有限公司、上海若星文化科技合伙企业(有限合伙)。 公司第一大股东为宋世宇,持股比例49.33%,上海欢电信息技术有限公司为第三大股东,持股比

    06-17

  • Molex 通过其增强的汽车以太网网络平台展示了其在自动驾驶汽车设计方面的实力

    Molex 通过其增强的汽车以太网网络平台展示了其在自动驾驶汽车设计方面的实力

    l 安全和安保功能集成了设备认证、多层安全性 l 多区域冗余、高时效性网络功能和 AUTOSAR 设备支持 l 先进的信息娱乐系统集成 AWSl 进行边缘计算和网络诊断以连接和快速充电消费设备的解决方案(新加坡 - 2019 年 1 月 9 日)Molex 宣布推出其屡获殊荣的 10 Gbps 汽车以太网平

    06-06