成都高新区:以创新为核心,5年投资300亿元,新建50个研发机构
06-17
如果把100个工程师大脑的模型组装起来,变成一个工厂的大模型,这会是无限游戏还是有限游戏?见过ChatGPT的人开始想象一个无边界的AGI愿景,但真正接近它的人可能会对后者有越来越多的想法。
“庞大的参数、海量的优质数据源、以及融入各种训练方式的Knowhow,如果哪个厂商说能在三四个月内打造出一个与OpenAI效果类似的超大型模型,基本上就“都可以了”虚张声势。
如果能力达不到GPT-4,就无法商用,甚至GPT-3.5也无法商用。
”珠间智能CEO简仁贤说出这番话时,业界对通用大型机型的热情本来就很高,很快就降温了。
两个月前在麻省理工学院举行的一次讨论中,OpenAI首席执行官 Sam Altman 出现,他表示“催生 ChatGPT 的研究策略已经结束”,未来模型的进一步改变不会带来进一步的新进展。
在描述GPT-4的论文中,OpenAI估计,在训练的背后,扩大模型的边际收益将会递减,数据中心的库存和建设速度也将成为限制。
6月份,OpenAI不仅推出了GPT-4。
4-32k在代币数量扩大到0的同时,还推出了另一个向后兼容的版本:基于GPT-3但模型尺寸更小的GPT-3.5-turbo,投资领域也开始有“”的说法。
初创公司构建通用大型模型的机会是0”。
例如,华映资本表示,未来5-10年,国内能够生存并产生商业价值的通用大型模型不会超过三个。
。
这样的呼声呼应了此前李彦宏、李志飞等人对于普遍大车型竞争的悲观前景。
来源:新浪财经 从业务角度来看,大模型最有前景的方向开始变成垂直领域,参数量已经校准到几十亿到几百亿的范围。
早在去年11月ChatGPT出来后,简仁贤就做了简单的测试,然后决定放弃AGI的方向。
2006年,简仁贤离开微软互联网工程院,带着微软Cortana的研发经验开始了新的创业。
他创立筑见智能,专注于NLP(自然语言处理)领域,努力成为一家以理解人类语言和情感为目标的科技公司。
2009年,公司开始商业化探索,并于2016年实现规模化落地。
目前,筑见智能已为多家客户实施了NLP。
筑剑智能在国内ToB AI领域已经打了8年有限的棋。
简仁贤对大规模模型发展的门槛和机遇有着清晰的认识。
通用人工智能(AGI)大型模型的商业化之路必然会走向ToC,但算力、数据和庞大的资金对于Takema这样仍保持初创公司形态的公司来说是巨大的障碍。
。
但他也明白竹间从这八年的限定游戏中收获了什么。
理性的放弃,是从另一个方向开始前进。
去年11月ChatGPT出现后,Kongzi很快决定推动Prompt Builder和Model Factory的发展。
现在已经过去8个月了,模型工厂也推出了竹间关于大型模型的新故事。
位模型工程师的大脑“目前市面上几乎所有的大型模型都是基于Transformer框架的。
换句话说,我们所说的大型模型更像是一个复杂的数据处理和模型训练项目。
”简仁贤说。
“模型训练还是抄别人的,CoT(Chain of Thought)是他们的Paper。
InContext Learning也看到了很多研究人员做的很多工作,包括Tree of Thought和RLHF,这也是别人发明的方法,你只要用这些方法就重复一遍吧。
”这不是创新。
但简仁贤认为,更大的创新空间还从这里延伸出来——如何将如此大的模型训练任务批量化、规模化,并实现低成本。

这也是为什么Prompt Builder和Model Factory的开发这么早就被提上日程的原因。
筑建智能内部,Prompt Builder已经开始取代产品经理的角色,模型工厂取代了Model 工程师完成了模型微调的大部分工作,并渗透到了所有大型模型的研发体系中。
这个不起眼的技术起点,体现了竹间进军大型模型竞赛的野心。
将一百个工程师模型的大脑收集到一个工厂中,或者称为 EmotiBrain。
Prompt Builder 中包含的 Prompt 模板集和优化管理功能嵌入到大型模型训练微调平台 EmotiBrain 的模型工厂中。
后者是Takema公司开发的大型语言模型训练工具。
简仁贤演示了企业如何使用EmotiBrain来训练合适的模型。
这是一种流水线训练方法。
用户选择一个基本的预训练模型,然后选择相应的行业数据、公司自有数据、指令集数据,还可以选择多种微调方法(整个微调过程是自动化的)。
所有细节选择完毕后,平台智能分配GPU资源并开始模型训练。
在EmotiBrain上,可以同时运行多个模型训练。
用户选择目标任务后,可以改变基本模型、测试数据和微调方法来生成不同的模型,然后通过模型评估选择最好的模型。
EmotiBrain模型训练接口来源:武健智能EmotiBrain可以实现从训练数据生成、数据整理和清洗、标注,到选择预训练基础模型、尝试不同微调方法、不同人员进行多次微调的过程直到测试、部署和最终应用。
的整合。
它可以进一步拆分为多种功能,Prompt Builder 就是其中之一。
另一方面,其自带的Model Factory拥有高质量的中英文训练数据集,支持Fine-tune、Prompt Tuning、Instruct Tuning、LoRA、QLoRA等多种微调模式,可同时训练上百个大型模型时间,大大减少训练最优模型的时间,降低模型训练的成本; Chat Search 是一个大型模型驱动的会话搜索引擎。
生成式人工智能的黑盒性质转化为模型训练的偶然性。
这意味着企业在训练最适合自己的模型时很难达到目标。
是经过多次培训后选拔出来的。
EmotiBrain 提供了基于多个模型同时训练的模型评估机制。
例如,法律咨询场景中的对话式人工智能将呈现多个经过训练的模型,并用相同的问题同时测试每个模型。
企业可以根据评估结果选择更好的模型。
对于大量非AI领域的公司来说,聘请模型人才是一件非常奢侈的事情,而模型人才的短缺是一个很大的挑战。
简仁贤说:“EmotiBrain就相当于有一个工程师模范来帮你工作。
”这种将集体智慧凝聚成自动化流程的过程并不是一朝一夕就能完成的。
2018年推出机器人定制云平台Bot Factory后,筑见智能也开始了NLP模型的自动化训练。
Transformer的模型开发也从头开始。
截至目前,已经积累了10多个意图理解模型和多个解析器。
累计模型总数超过3个,同时内部机器学习平台正在形成,开始承载整个模型训练过程。
经过内部研发多年的打磨这个模型训练管道机制,谷歌在去年年中发布了取得惊人成绩的LaMDA2。
筑剑科技决定转向大模型,开始以Bloom为目标(预测内容)打磨自己的机器学习。
平台,并尝试训练自己的基础大模型。
现在的EmotiBrain也是机器学习平台能力扩展后形成的。
但大型模型训练和微调平台只是基础。
彭博行业研究最近的一份报告预测,目前生成式人工智能的市场规模仅为 1 亿美元,到 2020 年将扩大到超过 1.3 万亿美元的市场。
简仁贤对ToB领域生成式AI最终市场规模的预估也在万亿级,而这个市场的赢家最终将是产品化、规模化和降低成本的能力。
“中国有14亿人口,超过10亿互联网用户,但他们大多数人不知道如何使用模型。
你必须给他们产品应用,而不是给他们模型。
” EmotiBrain是珠间智能“1”大模型产品体系的基础“1”,其能力将借助核心产品在四个方面得到进一步体现。
产品化能力的四个产品方向是对话、实践训练、知识管理和写作助手。
Bot Factory+和KKBot延续了筑见智能在对话方向的产品积累。
前者包括大模型、快速模型协作的双引擎智能对话技术,可以实现问答的自动提取和知识沉淀,通过持续的人机交互不断提高人机交互能力。
优化答案质量和速度。
问答形成的知识库,以及流程知识和图知识,也可以通过Bot Factory+进行管理。
KKBot可以理解为个人或企业的办公室副驾驶。
企业可以根据自身业务场景和需求,在KKBot上选择适合自己的大模型,形成个性化对话场景和功能,Takema提供私有化部署方案,保障企业数据安全。
Bot Factory+与KKBot的结合使用,可以进一步增强AI对话能力带来的生产力提升。
两者结合可以控制大型语言模型乱码的现象。
Emoti Coach是筑剑智能开发的一款基于大语言模型的模拟陪练软件。
在大模型能力的加持下,基于企业自身的知识和大模型的能力,通过简单的提示就可以生成丰富的课程和课程。
在陪练场景中,烟蒂教练的沉浸式特性意味着其陪练环境贴近实战,更容易获得真实的1:1陪练效果。
融入大模型能力后,可以为从业者提供及时、细粒度的反馈。
知识工厂,可以自动构建知识图谱和知识管理,定位为企业级知识工厂。
它提供模糊搜索和语义搜索相结合的方式来检索企业中的相关文档,并可以在文档之间建立智能关系网络。
对于员工个人,知识工厂提供延续、重写、翻译、总结等生成能力,帮助提高工作效率。
严格的安全审查机制将确保文档作为企业的知识积累能够规避风险。
筑剑智能“1”大样板产品体系 图片来源:筑剑智能 针对文档创建,筑剑智能研发了企业级写作助手产品Magic Writer,可以进一步解放员工在文档方面的生产力。
借助内置丰富的文档模板,员工只需输入必要的关键字即可自动生成文档。
知识工厂的内容生成能力和安全审核机制也将在Magic Writer中得到体现,Magic Writer可以基于企业私有数据进行创建。
避免通用模型胡言乱语的情况。
外界对大车型的关注大多集中在两端:大型厂商和新创公司。
前者拥有充足的资源、研发能力和自己的场景,而后者往往可以将引人注目的创始团队转化为巨大的想象空间。
相比之下,扎根NLP领域多年的公司却被忽视了。
但当外界更多关注大行业模式和企业定制模式时,筑见智能的产品优势开始显现。
企业需要一个能够真正跨越大型模型和用户之间“最后一英里”的解决方案,而不仅仅是孤立的服务或工具。
“一套碎片化的工具对企业来说没有任何用处,因为企业没有那么多会做模型的IT人员。
”简仁贤说。
筑见智能已积累六七百家大客户,包括私有部署和SaaS服务。
AI产品也经过大客户多年的验证已经成熟。
“1”大模型产品体系可以看作是之前的产品和Industry Knowhow使用大语言模型进行升级,这是Takema自己的“最后一英里”,但在此之前,基础产品化能力是一个必须花费5-7年的旅程年才能完成。
Takema提供了端到端的解决方案,这是一家在NLP领域积累了多年经验的AI公司相比市场上其他广泛谈论MaaS的玩家所具有的独特优势。
“模型是新代码(模型是新代码)”。
竹间提出了这个想法。
从20世纪90年代之前程序员在纸带和纯文本上编写代码,到提供代码补全和错误提示的集成开发环境(IDE)和语言服务器协议(LSP)的出现,人类编码的历史也是一部痕迹。
降低开发者投入门槛的历史。
大模特的崛起席卷了各行各业。
未来的软件将由大型语言模型驱动,模型成为新的代码。
从这个意义上来说,为了弥合用户、企业和大车型之间的巨大鸿沟,负责大车型生产的流水线工厂将作为一种基础设施继续长期存在。
筑鉴智能的机会也来了。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-06
06-18
06-17
06-17
06-17
06-18
06-18
最新文章
首先告诉我什么是智能汽车!
盲盒明星卡的暴利与泡沫:2元卡卖700万,直播卖卡月入百万
黑色星期五轰轰烈烈地回来了,结果这些中国企业扛起了全场
锂电池隔膜疯狂扩产:兴源材料欲夺回C位?
当我考上缅语专业时:凌晨三点我还在走廊里背单词,毕业后,我不仅仅是一名翻译者
被遗弃,被收获?老年人上网到底有多难?
海外日报 -今年,我国自主研发游戏海外实际销售收入实现两位数增长;三星电子正式成立机器人业务团队36氪海外·15分钟前
腾讯音乐:爱、相信、坚持