谁将成为北交所首个股票孵化器?
06-18
正文 |幸芙编辑|自2016年科学家开发出第一个“国际象棋”AI程序以来,AI已经发展了近70年。
这期间几经坎坷,但有一条主线贯穿其中:那就是“建模”——“模型”在人工智能中占比越来越高。
随着大型语言模型 ChatGPT 的出现,这一趋势达到顶峰。
“我们坚信,未来的人工智能将是模型的世界,模型的作用怎么强调都不为过。
” 7月22日,在极客公园主办的AGI Playground大会上,IDEA(粤港澳大湾区数字经济)研究院认知计算对话科学家自然语言主席张家兴。
2008年,张家兴带领IDEA团队创建了中国最大的开源预训练模型系统“封神榜”,堪称模型的“先驱”。
他们见证了大模型带来的“范式转变”。
张家兴认为,这种转移包括两个关键词,“消失”和“形成”。
“消失”是指随着ChatGPT通用大模型的到来,过去的信息提取、问答、文本输出等特定类型的模型正在消失。
“形成”是指大模型背后对工程能力的考验,从模型的诞生到微调和落地,都会形成新的生态位。
IDEA研究院也在新的生态领域进行布局。
除了开发全能力模型——目前,IDEA基于LLaMa生成了“子牙”通用大模型,已应用于数字人物、文案等场景。
大约一个月前,他们还训练了一系列专家模型,比如多模态模型、代码模型、写作模型、对话模型等,后者可以帮助用户撰写文章、新媒体文案、直播脚本、宣传海报,甚至网络小说。
张家兴认为,在这个庞大的生态系统中,创业者可以根据自己的优势,考虑自己想要占据哪个生态位。
“任何有兴趣加入大型模型领域的人都可以在其中找到自己的位置,”他说。
以下为极客公园摘编张家兴在AGI Playground大会上的演讲全文: 在极客公园主办的AGI Playground大会上,张家兴发表《大模型时代:今年新范式、新生态》演讲我们必须被称为大模特。
当我们谈论 AGI 时,我们总是认为人工智能中的大型模型是理所当然的。
往前推,即使推到2010年,很重要的事情就是“深蓝”击败了“卡斯帕罗夫”。
即使那个人工智能系统也没有深度学习模型。
整个人工智能的发展历程始于2007年,至今已有70年的历史。
虽然AI经历了几起潮起潮落,但我们可以发现AI的发展始终是沿着一条线的,这就是AI建模的过程——模型在AI中所占的比例越来越强。
今天我们坚信,未来的人工智能将是模型的世界,我们对模型的重视怎么强调也不为过。
张家兴谈到人工智能的建模过程。
我们都说这个大模型是“技术范式”的改变,可以概括为两个关键词:“消失”和“形成”。
“消失”是指类型的消失。
半年前,整个AI领域充斥着各种类型的AI结构和任务。
比如在结构上,有BERT、T5等各种模型结构。
比如任务方面,有分类、信息抽取、摘要撰写、问答等各种任务,但随着通用大模型时代的到来,这种多样性正在消失。
现在,唯一的模型结构是GPT,唯一的任务是文本输入和文本输出。
因此,之前的AI概念,比如句子分析、关键词等概念,已经逐渐淡出了我们的视线。
而且,当今模型的使用不再由技术提供商决定,而是由使用它的客户决定。
而“形成”是指生产链的形成。
模型的构建需要巨大的资源投入,很少有人能够独自完成这项任务。
它需要一个庞大的团队,背后有大量的计算能力来打磨它。
从模型最初的构思,到中间各个阶段的微调,再到最终的实施,这就构成了一个完整的生产链。
从“消失”与“形成”,我们可以看到大模型的“范式转变”。
有时候,技术的进步是无情的,不以个人意志为转移。
新的技术范式将取代旧的技术范式。
那么,大型模型作为这种新技术范式的价值是什么?我认为它带来了四个全新的价值: 1、全新的理解能力。
在自然语言理解方面,当前的大型模型远远超过了之前的所有模型。
它似乎真的明白我们所说的每一句话的意思。
虽然答案可能不完全准确,但它们提出了新的理解水平。
2 全新的工具 它不仅是提高效率的工具,而且可以将人们从繁重的劳动中解放出来。
它也是一种创造性的工具,可以创造人类无法创造的东西。
例如,去年扩散模型展示了其生成图表的能力。
3 新接口 以前我们必须编写程序来访问数据和API,但现在,我们似乎不再需要编写繁琐的代码了。
我们只需要用自然语言来描述它们,大模型就可以自动生成代码。
4 新引擎 大模型不仅仅是单点能力,它可以作为驱动信息检索、对话生成、甚至故事创作的引擎。
大车型也带来了新的生态,就是如何与行业融合的问题。
我们认为大模型不仅仅是简单的 API 或不可变模型。
我们强调,上游企业生产出模型后,下游客户必须进行进一步的培训,才能完成最后一公里。
这样,模型就可以嵌入到每个客户自己的场景中。
随着模型表现更好,会收集更多数据,从而增强模型。
这样才能真正带动整个行业的发展。
在这个新的生态系统中,最上游的是制造基础模型的公司。
在基本模型之下,有许多团队专注于特定功能或领域的模型。
未来,我们将与解决方案公司、云厂商、硬件厂商合作,打造多种产品,最终服务于老牌企业和政府。
张家兴所描述的大模型新生态,涉及到很多从基础模型到真正落地的环节和环节,也催生了很多新的生态位。
我觉得大家可以结合自己的优势,思考自己想要在这个生态中占据一个什么样的位置。
事实上,任何有兴趣加入大型模型领域的人都可以在其中找到自己的位置。
《姜子牙》大模型背后我们的团队已经成立两年了。
从我们过去的经验中,我们可以清楚地看到这种范式变革对我们的影响。
直到去年年底,我们正在开发大量具有不同模型结构和任务类型的开源模型。
短短一年时间,我们开源了98个模型,创下了中国领域的开源记录。
然而,去年年底,屠文森的模型突然成为热门产品。
于是我们开始转向,做了第一个开源的中文稳定扩散模型,我们称之为“太乙”模型。
我们希望跟上大型模型的技术范式变化。
在当前通用大模型时代,我们团队加班加点的就是为中国人培养最好的开源基础大模型。
这就是大家所熟知的 LLaMA2。
我们训练了 20B 个代币。
与之前训练的“ziya-LLaMA-13B”模型相比,训练速度提升了38%,彻底解决了训练过程中“训练”不稳定(训练异常)的问题。
在训练了20B个token后,LLaMA2解决了训练过程中“训练”不稳定的问题。
这个模型我们训练好之后就会完全开源,商业应用不会有任何限制。
同时,我们承诺会继续训练这个模型,希望为整个大型模型社区提供最好的开源和商用的模型库。
在当前的技术范式下,今年ChatGPT的推出让很多人兴奋不已,表示通用大模型将颠覆各行各业。
然而,随着时间的推移,我们冷静下来发现,大模型其实只是对现有场景的净化和优化。
因此,我们认识到大模型应用在垂直行业、领域和能力上仍然存在很多可能性和机会。
所以大约一个月前,我们团队制作了一系列专家模型,比如多模态模型、代码模型、写作模型、会话模型等,其中很多已经发布,并且已经达到了该领域最好的水平。
我们最近开源了一个中文协作模式,叫做“子牙写作”。
我们希望这个模型能够成为一个开箱即用的助手,为企业和个人提供效率提升的支持。
比如政府人员可以请子牙文帮忙写灾害情况报告,或者写领导人在开幕式上的讲话,因为这样很符合政策报告的风格。
此外,还可以解放中文社区的创作者、运营者和营销者,帮助撰写各种类型的文章、文案、软文,甚至创作优秀的短篇小说甚至古幻网文。
小说。
我们可以看到它在章节结构逻辑和故事情节方面都有着非常不错的表现。
我们还开发了一个仅使用 1 亿个参数的检索包。
它在法律和金融领域的效果比目前的一些解决方案更好,甚至比目前最好的开源向量模型还要好。
我们的工具包还可以成为金融行业的小助手,为研究人员和分析师提供帮助。
为什么我们能生产出这么多高质量的模型? 背后是我们的很多积累,包括三阶段训练体系(预训练PT、有监督微调SFT、人类反馈学习RLHF),包括大量高质量数据的积累、一些自研算法,并将其沉淀到我们的培训体系中。
我们的每个模型都支持开源和商业版本,并且我们授权合作伙伴进行训练和微调,允许他们在自己的场景中进行私人训练。
从小到大,我们团队的变化也体现了当前整个大模型领域技术范式的变化。
现场提问 IDEA团队接受现场提问 问:您对未来的硬件推理架构有何看法?未来的硬件是长期“练推”,还是会有专用推理芯片的机会? 张家兴:原来我们有两种类型的芯片:训练和推理,但现在的推理芯片显然无法适应今天的大型模型。
所以目前基本上从硬件限制来看,“训练推合一”比较常见。
而且,训练和推送一体化的一大优势就是可以复用算力。
我们推断它可能并不总是满负荷的,所以我们可以充分利用低谷时间进行训练。
这也是从经济时间的角度考虑的。
未来,推理芯片仍然有其意义。
在一些场景,比如移动终端、边缘计算或者车载设备,仍然需要专门定制的推理芯片。
即使在云端和服务器中,如果推理芯片能够在低功耗或者其他方面进行更多的优化,那么它仍然是有意义的。
我觉得未来还是应该有专门的芯片做专门的事情。
问:对于一些垂直应用,应该从哪些角度收集数据比较好?如何构建高质量的数据集? 张家兴:其实我们所有的数据都是慢慢收集的。
从一开始,只有二十或三十个数据集。
但是逐渐通过训练,比如说缺少哪一部分的能力,我们就会有针对性地收集一部分这样的数据,同时我们也会积累一些自己的经验,比如一些数据的处理。
最后,如果没有,我们就自己构造一些数据。
比如多人对话等,我们里面有各种不同类型的数据集。
问:为什么要制定这么多专门的胜任力模型?为什么不在同一个模型上增强这两种功能呢? 张家兴:我们有几个考虑。
首先是我们提前选定了这样的模型尺寸。
选择此型号尺寸后。
您希望这个模型具有哪些功能?这是在有限情况下提出的建议。
这是一个非常大的成本优势。
这时候我想把所有的能力都放到一个大的模型里,但是这些能力在时间和空间上都是互斥的。
就空间而言,某些能力是相互排斥的。

比如我们做逻辑推理题的时候,比如数学题和写作题,它们是有冲突的。
另外,还有时间上的冲突。
在某个时刻,某种能力是最强的,但其他能力可能不是很强。
由于下游场景只需要单一能力,我们不妨只选择某些数据集来训练某些任务,这是一个专用模型。
问:您提到“飞行训练”不稳定的问题已经解决。
这是怎么解决的? 张家兴:这里最关键的一点是,第一是我们对训练进行了调整。
我们在分布式训练的时候,在源码层做了一些修改。
确实,训练的稳定性要强很多。
当我们训练Ziya-LLaMA-13B时,该训练集的曲线变得稳定。
我们是一个很大的模型团队,非常注重训练技术,这也是我们能够持续做出好模型的保证。
问:关于公共领域大模型和私有化大模型的讨论,模型是否必须私有化?比如我想做一个to C应用,不可以私下部署吗? 张家兴:首先,我们发现我们的合作伙伴有一些数据安全合规和隐私需求,他们的数据无法使用公共模型进行训练。
其次,他们需要有非常深入的场景和定制需求。
无论是给B的产品,还是给C的产品,他们都想用在自己的场景中。
此时,公共大模型或通用大模型库已无法完全满足他们的所有需求,因此私有化培训和私有化部署就成为他们的必备选择。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-17
06-08
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态