首页 > 技术迭代 > 内容

如果集合100个模型工程师的大脑,然后变成一个工厂

发布于:2024-06-28 编辑:匿名 来源:网络

如果把100个工程师大脑的模型组装起来,变成一个工厂的大模型,这会是无限游戏还是有限游戏?见过ChatGPT的人开始想象一个无边界的AGI愿景,但真正接近它的人可能会对后者有越来越多的想法。

“庞大的参数、海量的优质数据源、以及融入各种训练方式的Knowhow,如果哪个厂商说能在三四个月内打造出一个与OpenAI效果类似的超大型模型,基本上就“都可以了”虚张声势。

如果能力达不到GPT-4,就无法商用,甚至GPT-3.5也无法商用。

”珠间智能CEO简仁贤说出这番话时,业界对通用大型机型的热情本来就很高,很快就降温了。

两个月前在麻省理工学院举行的一次讨论中,OpenAI首席执行官 Sam Altman 出现,他表示“催生 ChatGPT 的研究策略已经结束”,未来模型的进一步改变不会带来进一步的新进展。

在描述GPT-4的论文中,OpenAI估计,在训练的背后,扩大模型的边际收益将会递减,数据中心的库存和建设速度也将成为限制。

6月份,OpenAI不仅推出了GPT-4。

4-32k在代币数量扩大到0的同时,还推出了另一个向后兼容的版本:基于GPT-3但模型尺寸更小的GPT-3.5-turbo,投资领域也开始有“”的说法。

初创公司构建通用大型模型的机会是0”。

例如,华映资本表示,未来5-10年,国内能够生存并产生商业价值的通用大型模型不会超过三个。

这样的呼声呼应了此前李彦宏、李志飞等人对于普遍大车型竞争的悲观前景。

来源:新浪财经 从业务角度来看,大模型最有前景的方向开始变成垂直领域,参数量已经校准到几十亿到几百亿的范围。

早在去年11月ChatGPT出来后,简仁贤就做了简单的测试,然后决定放弃AGI的方向。

2006年,简仁贤离开微软互联网工程院,带着微软Cortana的研发经验开始了新的创业。

他创立筑见智能,专注于NLP(自然语言处理)领域,努力成为一家以理解人类语言和情感为目标的科技公司。

2009年,公司开始商业化探索,并于2016年实现规模化落地。

目前,筑见智能已为多家客户实施了NLP。

筑剑智能在国内ToB AI领域已经打了8年有限的棋。

简仁贤对大规模模型发展的门槛和机遇有着清晰的认识。

通用人工智能(AGI)大型模型的商业化之路必然会走向ToC,但算力、数据和庞大的资金对于Takema这样仍保持初创公司形态的公司来说是巨大的障碍。

但他也明白竹间从这八年的限定游戏中收获了什么。

理性的放弃,是从另一个方向开始前进。

去年11月ChatGPT出现后,Kongzi很快决定推动Prompt Builder和Model Factory的发展。

现在已经过去8个月了,模型工厂也推出了竹间关于大型模型的新故事。

位模型工程师的大脑“目前市面上几乎所有的大型模型都是基于Transformer框架的。

换句话说,我们所说的大型模型更像是一个复杂的数据处理和模型训练项目。

”简仁贤说。

“模型训练还是抄别人的,CoT(Chain of Thought)是他们的Paper。

InContext Learning也看到了很多研究人员做的很多工作,包括Tree of Thought和RLHF,这也是别人发明的方法,你只要用这些方法就重复一遍吧。

”这不是创新。

但简仁贤认为,更大的创新空间还从这里延伸出来——如何将如此大的模型训练任务批量化、规模化,并实现低成本。

如果集合100个模型工程师的大脑,然后变成一个工厂

这也是为什么Prompt Builder和Model Factory的开发这么早就被提上日程的原因。

筑建智能内部,Prompt Builder已经开始取代产品经理的角色,模型工厂取代了Model 工程师完成了模型微调的大部分工作,并渗透到了所有大型模型的研发体系中。

这个不起眼的技术起点,体现了竹间进军大型模型竞赛的野心。

将一百个工程师模型的大脑收集到一个工厂中,或者称为 EmotiBrain。

Prompt Builder 中包含的 Prompt 模板集和优化管理功能嵌入到大型模型训练微调平台 EmotiBrain 的模型工厂中。

后者是Takema公司开发的大型语言模型训练工具。

简仁贤演示了企业如何使用EmotiBrain来训练合适的模型。

这是一种流水线训练方法。

用户选择一个基本的预训练模型,然后选择相应的行业数据、公司自有数据、指令集数据,还可以选择多种微调方法(整个微调过程是自动化的)。

所有细节选择完毕后,平台智能分配GPU资源并开始模型训练。

在EmotiBrain上,可以同时运行多个模型训练。

用户选择目标任务后,可以改变基本模型、测试数据和微调方法来生成不同的模型,然后通过模型评估选择最好的模型。

EmotiBrain模型训练接口来源:武健智能EmotiBrain可以实现从训练数据生成、数据整理和清洗、标注,到选择预训练基础模型、尝试不同微调方法、不同人员进行多次微调的过程直到测试、部署和最终应用。

的整合。

它可以进一步拆分为多种功能,Prompt Builder 就是其中之一。

另一方面,其自带的Model Factory拥有高质量的中英文训练数据集,支持Fine-tune、Prompt Tuning、Instruct Tuning、LoRA、QLoRA等多种微调模式,可同时训练上百个大型模型时间,大大减少训练最优模型的时间,降低模型训练的成本; Chat Search 是一个大型模型驱动的会话搜索引擎。

生成式人工智能的黑盒性质转化为模型训练的偶然性。

这意味着企业在训练最适合自己的模型时很难达到目标。

是经过多次培训后选拔出来的。

EmotiBrain 提供了基于多个模型同时训练的模型评估机制。

例如,法律咨询场景中的对话式人工智能将呈现多个经过训练的模型,并用相同的问题同时测试每个模型。

企业可以根据评估结果选择更好的模型。

对于大量非AI领域的公司来说,聘请模型人才是一件非常奢侈的事情,而模型人才的短缺是一个很大的挑战。

简仁贤说:“EmotiBrain就相当于有一个工程师模范来帮你工作。

”这种将集体智慧凝聚成自动化流程的过程并不是一朝一夕就能完成的。

2018年推出机器人定制云平台Bot Factory后,筑见智能也开始了NLP模型的自动化训练。

Transformer的模型开发也从头开始。

截至目前,已经积累了10多个意图理解模型和多个解析器。

累计模型总数超过3个,同时内部机器学习平台正在形成,开始承载整个模型训练过程。

经过内部研发多年的打磨这个模型训练管道机制,谷歌在去年年中发布了取得惊人成绩的LaMDA2。

筑剑科技决定转向大模型,开始以Bloom为目标(预测内容)打磨自己的机器学习。

平台,并尝试训练自己的基础大模型。

现在的EmotiBrain也是机器学习平台能力扩展后形成的。

但大型模型训练和微调平台只是基础。

彭博行业研究最近的一份报告预测,目前生成式人工智能的市场规模仅为 1 亿美元,到 2020 年将扩大到超过 1.3 万亿美元的市场。

简仁贤对ToB领域生成式AI最终市场规模的预估也在万亿级,而这个市场的赢家最终将是产品化、规模化和降低成本的能力。

“中国有14亿人口,超过10亿互联网用户,但他们大多数人不知道如何使用模型。

你必须给他们产品应用,而不是给他们模型。

” EmotiBrain是珠间智能“1”大模型产品体系的基础“1”,其能力将借助核心产品在四个方面得到进一步体现。

产品化能力的四个产品方向是对话、实践训练、知识管理和写作助手。

Bot Factory+和KKBot延续了筑见智能在对话方向的产品积累。

前者包括大模型、快速模型协作的双引擎智能对话技术,可以实现问答的自动提取和知识沉淀,通过持续的人机交互不断提高人机交互能力。

优化答案质量和速度。

问答形成的知识库,以及流程知识和图知识,也可以通过Bot Factory+进行管理。

KKBot可以理解为个人或企业的办公室副驾驶。

企业可以根据自身业务场景和需求,在KKBot上选择适合自己的大模型,形成个性化对话场景和功能,Takema提供私有化部署方案,保障企业数据安全。

Bot Factory+与KKBot的结合使用,可以进一步增强AI对话能力带来的生产力提升。

两者结合可以控制大型语言模型乱码的现象。

Emoti Coach是筑剑智能开发的一款基于大语言模型的模拟陪练软件。

在大模型能力的加持下,基于企业自身的知识和大模型的能力,通过简单的提示就可以生成丰富的课程和课程。

在陪练场景中,烟蒂教练的沉浸式特性意味着其陪练环境贴近实战,更容易获得真实的1:1陪练效果。

融入大模型能力后,可以为从业者提供及时、细粒度的反馈。

知识工厂,可以自动构建知识图谱和知识管理,定位为企业级知识工厂。

它提供模糊搜索和语义搜索相结合的方式来检索企业中的相关文档,并可以在文档之间建立智能关系网络。

对于员工个人,知识工厂提供延续、重写、翻译、总结等生成能力,帮助提高工作效率。

严格的安全审查机制将确保文档作为企业的知识积累能够规避风险。

筑剑智能“1”大样板产品体系 图片来源:筑剑智能 针对文档创建,筑剑智能研发了企业级写作助手产品Magic Writer,可以进一步解放员工在文档方面的生产力。

借助内置丰富的文档模板,员工只需输入必要的关键字即可自动生成文档。

知识工厂的内容生成能力和安全审核机制也将在Magic Writer中得到体现,Magic Writer可以基于企业私有数据进行创建。

避免通用模型胡言乱语的情况。

外界对大车型的关注大多集中在两端:大型厂商和新创公司。

前者拥有充足的资源、研发能力和自己的场景,而后者往往可以将引人注目的创始团队转化为巨大的想象空间。

相比之下,扎根NLP领域多年的公司却被忽视了。

但当外界更多关注大行业模式和企业定制模式时,筑见智能的产品优势开始显现。

企业需要一个能够真正跨越大型模型和用户之间“最后一英里”的解决方案,而不仅仅是孤立的服务或工具。

“一套碎片化的工具对企业来说没有任何用处,因为企业没有那么多会做模型的IT人员。

”简仁贤说。

筑见智能已积累六七百家大客户,包括私有部署和SaaS服务。

AI产品也经过大客户多年的验证已经成熟。

“1”大模型产品体系可以看作是之前的产品和Industry Knowhow使用大语言模型进行升级,这是Takema自己的“最后一英里”,但在此之前,基础产品化能力是一个必须花费5-7年的旅程年才能完成。

Takema提供了端到端的解决方案,这是一家在NLP领域积累了多年经验的AI公司相比市场上其他广泛谈论MaaS的玩家所具有的独特优势。

“模型是新代码(模型是新代码)”。

竹间提出了这个想法。

从20世纪90年代之前程序员在纸带和纯文本上编写代码,到提供代码补全和错误提示的集成开发环境(IDE)和语言服务器协议(LSP)的出现,人类编码的历史也是一部痕迹。

降低开发者投入门槛的历史。

大模特的崛起席卷了各行各业。

未来的软件将由大型语言模型驱动,模型成为新的代码。

从这个意义上来说,为了弥合用户、企业和大车型之间的巨大鸿沟,负责大车型生产的流水线工厂将作为一种基础设施继续长期存在。

筑鉴智能的机会也来了。

如果集合100个模型工程师的大脑,然后变成一个工厂

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 成都高新区:以创新为核心,5年投资300亿元,新建50个研发机构

    成都高新区:以创新为核心,5年投资300亿元,新建50个研发机构

    5年投资1亿元,新建50个研发机构。 揭牌团队最高可获得亿元支持,各大新型研发机构支持无上限……今年1月,成都高新技术产业开发区(以下简称成都高新区)启动“揭牌引领”新型研发机构(新研发机构)“岷山行动”计划,发布首批14个“揭牌”“挂帅”,新型研发机构需求清单

    06-17

  • 山东省发起设立两只海洋基金,总规模达500亿元

    山东省发起设立两只海洋基金,总规模达500亿元

    据投资界消息,2月8日,蓝色经济区产业基金管理有限公司与中国海洋基金揭牌仪式蓝色经济产业基金管理有限公司今日在济南召开。 揭牌仪式上,基金管理公司与青岛港投资建设(集团)有限公司等8家单位现场签约,项目总投资1亿元。   蓝色经济区产业投资基金总规模1亿元,期限

    06-18

  • Wi-Fi 7商用元年:路更宽,车更宽

    Wi-Fi 7商用元年:路更宽,车更宽

    中国电子报 近日,Wi-Fi联盟正式确认Wi-Fi 7认证标准,标志着无线通信技术进入全面成熟期。 新时代。 新的阶段。 随着智能设备和物联网的普及,人们对可靠、快速的无线通信的需求日益增加。 Wi-Fi 7芯片组的市场潜力备受关注,预计2019年相关产品将大规模进入市场。 Wi-Fi 7

    06-06

  • 中国“被误导”的裤王终于想通了

    中国“被误导”的裤王终于想通了

    男人的消费能力越来越傲。 她不仅摆脱了“人不如狗”的刻板标签,穿搭的精致和优雅甚至比女性还要夸张。 例如,我提出了珍珠。 他还一手捧红了T恤、夹克等品牌,在垂直品类上也尽了自己的一份力量。 女人有自己的小黑瓶,男人为什么不能有自己的小黑裤? 以前,裤子总是被嘲笑

    06-18

  • IC Insights:2022年半导体总销售额将增长11%

    IC Insights:2022年半导体总销售额将增长11%

    2月10日,ICInsights发布了对全球半导体行业的全面预测和分析。 报告预测,继同比增长25%和同比增长11%之后,今年半导体总销售额将增长11%。 如果这一预测成真,这将标志着半导体市场自2002年以来首次连续三年实现两位数增长。 另外,ICInsights 还指出,2018 年至 2018 年整

    06-08

  • 聚焦基地大模型,智谱AI完成超25亿元融资

    聚焦基地大模型,智谱AI完成超25亿元融资

    投资圈(ID:pedaily)据10月20日消息,北京智普华章科技有限公司已累计获得今年融资超过25亿元,参与方主要包括社保基金中关村自主创新基金(君联资本为基金管理人)、美团、蚂蚁、阿里巴巴、腾讯、小米、金山、顺为、老板直招、好未来、红杉、高瓴等多家机构以及君联资本等

    06-17

  • 摩尔牙科完成十亿元B轮融资,你今天去看牙医了吗?

    摩尔牙科完成十亿元B轮融资,你今天去看牙医了吗?

    据投资界1月30日消息,摩尔牙科近日宣布完成1亿元B轮融资,投资方包括松柏投资、国信创投等。   摩尔牙科总部位于上海,是国内外为数不多的连锁经营的大型现代化牙科医疗系统之一。 目前,摩尔牙科已在以上海为中心的长三角地区开设了近40家牙科医院和牙科诊所。   从人

    06-17

  • 对外投资合作指南(日本)-国家概况

    对外投资合作指南(日本)-国家概况

    简介 在您准备去日本(日本,简称“日本”或“日本”)开展投资合作之前,您了解日本的政治、经济吗?以及社会文化环境和投资环境?当地有哪些规范外商投资的法律法规?投资时应该注意什么?如何与当地政府、居民、媒体和执法部门打交道? 《对外投资合作国别(地区)指南》系

    06-17

  • 据悉,Groupon正在洽谈IPO,估值高达250亿美元

    据悉,Groupon正在洽谈IPO,估值高达250亿美元

    3月18日,据外媒报道,两名消息人士透露,美国团购网站Groupon正在与投行洽谈IPO事宜估值高达1亿美元。 美元。 这家成立两年的公司很可能在今年IPO,估值不低于1亿美元。   在过去的三个月里,Groupon 将业务扩展到了多个新市场,用户群也增加了一倍。 这使得该网站的估值自

    06-18

  • 京东求变:市值515亿美元,首次实现年度盈利

    京东求变:市值515亿美元,首次实现年度盈利

    刘强东已经很久没有出现在公众视野了。 投资界获悉,3月13日,刘强东卸任16家物流公司总经理职务,令人震惊。 天眼查显示,短短两天内,刘强东总共辞去了18家公司的高级管理职务。 今年过去三个月,已有29家公司名义脱离刘强东控制,其中包括京东物流全资子公司、京东云计算全

    06-18

  • 洪九果业完成5亿元C轮融资,华人文化资本领投,

    洪九果业完成5亿元C轮融资,华人文化资本领投,

    据投资界11月19日消息,国内优质水果供应链公司洪九果品宣布完成由华人文化资本领投的5亿元C轮融资。 完成本轮投资后,洪九水果将继续优化供应链体系,拓展进口及国产水果品类,提高资金周转效率,进一步释放利润空间。 我国生鲜市场产业巨大,需求旺盛。 水果作为核心生鲜品

    06-18

  • 度假行业“新物种”,酒店品牌诗莉莉获B、B+轮融资

    度假行业“新物种”,酒店品牌诗莉莉获B、B+轮融资

    据投资界5月20日消息,今日精品度假酒店品牌“诗莉莉”宣布完成融资B、B+轮融资,融资总额1亿元。 B轮融资由物阅资本领投,经纬中国跟投; B+轮融资由青松基金领投,吾悦资本跟投。   诗莉莉创始人许鑫明表示,本轮融资将用于规模扩张和消费体验优化。 这是继2019年2月14日

    06-17