一家号称“真相帝”的公司,一个DEMO就能估值2亿
06-17
作者|北编辑|靖宇 历史上从未有过像2017年这样将AI与人类未来联系得如此紧密的时刻。
短短几个月,AI行业就上演了OpenAI开发者大会、Humane大会等重大行业活动。
推出AI Pin、微软Ignite大会、xAI发布Grok、OpenAI“宫斗剧”等,不仅一次次引发AI圈内的激烈讨论,也引起更多人对AI商业化的关注和关注。
自己未来的发展。
作为“大模型元年”,AI大模型的落地也迈出了不同的方向。
对于以OpenAI为代表的C端来说,将GPT Store、人人可定制的GPT等融入人类生活成为新的主题;而对于B端来说,诸如“技术如何落地”、“应用的可能性”等更实际的话题从未如此频繁地出现在企业家的话语中。
卡内基梅隆大学(CMU)高材生、联汇科技首席科学家赵天成还记得在大学攻读博士学位时,看到谷歌AlphaGO战胜人类围棋顶尖选手时的震惊。
当时,他已经清楚地看到了传统“基于规则”的AI开发方式的弊端,转而研究“AI代理”。
他选择了一条“GPT前模型”的AI道路。
早在几年前,他就预言大型模型是人工智能快速进化的正确路径。
回国加入联汇科技后,赵天成和他的团队开始打磨基础模型,重点关注多模态大模型领域。
2016年,他们推出了首款自主研发的多式联运大车型,与现在的创业者竞争。
仍然厌倦了“滚动”大型文本模型来创建鲜明的对比。
技术创新和务实的产品开发,让联汇科技凭借多模态大车型的超强能力,先后获得广电、运营商、国家电网等多个领域的B端客户,成为大型企业中不可多得的模范企业家。
那些已经取得成功的人。
在创业道路上,赵天成看到了当年“人工智能四小龙”目前的困境,认识到“小模型定制是死路一条”的道理,并坚持联辉科技在人工智能领域不断研发和创新。
大型模型领域。
对于当前的“百模型之战”,赵天成认为,单纯“滚动参数”、试图重现ChatGPT的能力,对于很多初创公司来说,可能并不是唯一正确的出路。
在B端积累了相当多的经验,他认为大模型不仅仅限于LLM。
相比之下,多模态大模型可以在更多场景下实现。
“GPT只是大型模型的一种路径,但OpenAI的方法可以在更多场景中尝试。
”赵天成告诉极客公园。
在他看来,对于AI B端来说,竞争不是“百团大战”,而更像是“丛林狩猎”。
最终获得猎物的不一定是一家大公司。
以下是极客公园对联汇科技首席科学家赵天成的专访: 01 传统AI研究有上限,你要做别人不敢做的事情。
极客公园:你以前在加州大学学过计算机科学,为什么又去那里呢?想在 CMU 学习语言技术吗? 赵天成:我在加州大学洛杉矶分校电气工程系主修计算机科学。
我用了近三年的时间完成了本科专业课程。
第四年主要学习了研究生系列课程。
我也在UCLA语音技术实验室做了语音处理方面的研究,并开始接触它。
人工智能、机器学习等前沿话题引起了我的极大兴趣。
我选择在CMU攻读计算机科学博士学位,因为CMU在人工智能领域排名世界第一,而去那里是所有人工智能研究人员的梦想。
我去CMU计算机学院的LTI(语言技术研究所)是因为接触了语音处理技术后,感觉这个技术已经开始慢慢从学术界向工业界转移。
它的技术部分是相对而言的。
已经比较成熟了,想做更多前沿的人工智能基础理论研究和工业工程相关研究。
我当时判断,由于语音识别作为语音感知层已经比较成熟,后续的行业趋势肯定会包括更深层次的认知智能,比如理解语义、智能对话,甚至超越语言本身的推理和决策能力。
CMU的LTI是该领域世界上最好的研究机构。
那里的科学家开发出了世界上最早的语音识别引擎、机器翻译系统、人机对话系统等,我相信新一代突破性的人工智能可以在那里诞生。
智能技术。
极客公园:2006年您选择做语音语言研究时,当时学术界的状况如何? 赵天成:当时NLP(自然语言处理)领域正处于转型期。
当时有一群人在做基于规则的研究,还有一些人在做基于机器学习的研究,或者说机器学习和规则相??结合。
在,我发表了业界最早的端到端人机对话论文,讲的是如何利用神经网络来解决整个对话系统的问题。
当时常见的做法是拼接多个规则模块,但使用神经网络来完成所有对话仍然是一个前沿的想法,很像现在的ChatGPT。
该作品还获得了当年 SIGDIAL 最佳论文奖的提名。
我当时提出的是,应该用神经网络进行端到端的学习来实现智能对话,而不是用很多AI规则模块来构建人机交互系统。
极客公园:这个灵感的来源是什么? 赵天成:当时我分析了传统的对话系统,发现虽然通过人工建立规则或者人工建立专家系统可以在短期内提升系统的能力,但是这种提升是不可持续的,因为我们不能穷。
综合所有对话场景,从长远来看,要实现人工智能的大跨越,正确的路线应该是减少人工干预,依靠更强的计算能力,让机器更好地进行自学习,实现智能的提升。
我们不应该根据“人工智能”的多少而陷入“智能”的陷阱。
这样做只会让“人工智能”变成“人工智障”。
但要实现机器自学习,这个过程存在很多挑战,因为人机交互系统会有很多复杂的模块,需要自然语言理解和解释为实体,以及对话层面的大量逻辑和规划。
这些必须通过神经网络来解决。
机器人小欧深入了解屏幕|小程序搜索“机器人小欧”体验 但当时业界并没有像现在那么多的工具。
在做的过程中,我们考虑从哪里开始,走完最基本的闭环。
,然后基于它进行扩展。
这是我当时感觉比较容易实现并成为真正的智能AI的方向和路径。
极客公园:您在CMU攻读博士学位时,业界还没有出现大模型的概念? 赵天成:当时还没有大模型的概念,甚至生成模型也是一个很少见的概念。
在硕士和博士学习期间,我做了两件事。
在攻读硕士学位期间,我承担了一个 NSF 项目。
那个时候还没有智能音箱。
我提出建立一个智能代理,其智能大脑可以集成各种单任务代理能力。
可能是点菜,也可能是点菜。
是一个通过统一代理与用户进行沟通的推荐地图。
这在当时还是一个前沿话题,类似于现在的ChatGPT插件系统。
我和我的团队在2016年从0到1搭建了整个平台,作为基础科研平台,支撑了后续多篇科研论文的发表。
这一成果得到了亚马逊、谷歌等众多人工智能专家的充分肯定。
在制作这个智能代理的过程中,我发现通过传统的方法制作智能代理的能力上限其实很低。
这激励我在我的博士项目中建立一个端到端的生成模型。
我想只有这样才能真正从根本上解决这个问题。
所以今年以来,基本上我所有的论文都集中在如何制作更好的生成模型上。
将数据“注入”其中后,它可以完成更复杂的任务。
极客公园:我们当时做的模型已经是一个很大的模型了,但是还没有现在这么大,有几百亿的参数? 赵天成:是的,只是规模不同。
核心算法非常接近,几乎没有区别。
比如我当时训练的是一个一亿参数的模型,但是现在可能是一亿参数或者一亿参数的模型。
极客公园:AlphaGo于2008年出现,当时引起了巨大的反响。
你当时感觉如何? 赵天成:我当时非常感动。
因为我当时做的就是生成模型过程中最大的两个技术栈:部分神经网络的设计、训练和强化学习。
当时的AlphaGo就是强化学习的一个很好的应用场景和成果。
所以我们也考虑如何将这种能力应用到现实场景中,因为AlphaGo本身的规则是固定的。
但事实上,我们在处理人机交互、自然语言、图像时有着无限的可能性,其难度远远超出了下围棋的任务。
所以我们花了很多精力研究如何将AlphaGo级别的端到端机器学习应用到更广泛的领域。
2016年,我们提出了基于隐藏变量的强化学习,让智能体能够学习从人类反馈中获得更好的结果。
人机交互策略大大提高了任务完成的成功率,达到了当时的SOTA性能。
极客公园:2009年、2018年左右,国内AI行业还处于低谷。
为什么选择回国创业人工智能? 赵天成:因为我发现无论什么模式、什么技术,都需要有一些匹配的应用场景才能实现它的迭代,体现出它自身的价值。
当时我们跟中国有很多交流,发现其实无论是视频还是多媒体,国内有很多应用场景在美国可能很少见,但是在中国有更多的机会。
一方面,国内人工智能将有更大的应用空间和更多机会。
另一方面,回到中国也是我个人的选择。
我还是一个家国情怀很强的人。
在美国留学这么多年,我希望能够把自己的时间和精力投入到建设自己的国家中。
经过综合考虑,我选择回国。
实现我的理想。
02 做小模型定制是死路一条。
极客公园:当时国内AI行业的状况如何?联辉科技如何选择进入市场的角度? 赵天成:当时国内的大型车型几乎还没有开放。
包括华为、百度在内的很多大厂商也训练了一些模型,但当时没有人发现有什么实际价值。
回来后我分析了国内AI行业的痛点。
当时很多行业都在做AI,比如零售AI、客服AI等,这些基本上都是用传统的小模型方法来做的,定制化程度很高。
对于小模型定制来说,瓶颈在于每个A模型无法通用,每个场景都必须从头开始,没有积累,定制成本非常高。
这使得当时人工智能的商业化成为一项非常累人、赔钱的工作。
经过研究分析,我们发现,市场上中长尾应用场景虽然很多,但功能需求却非常分散。
这种情况和我们之前的智能座席平台类似。
如果以小模型的方式去做,就很难走得远。
所以我觉得既然要做一些事情,就一定要做一些有“未来”的事情,放弃小模型的想法,专注于大模型。
并且根据学术研究成果,我们判断大车型的行业爆发不会太遥远。
欧姆的大型视觉语言模型具有主动思考和分析的能力。
极客公园:当时你们是如何让客户认识到这个技术案例的先进性的?说服对方往这个方向投资? 赵天成:很难。
那时候还没有大模型的概念。
我们尝试了很多方法来科普,但几乎没有人理解。
我们尝试通过与其他产品的比较来说明我们的路线的优势,因为通过大模型和小模型的比较可以看到效果。
比如,在介绍跨模态搜索能力时,我们告诉对方,以前的搜索需要打标签,但我们搜索时,只需要用自然语言说一句话就可以找到东西。
我们不使用标签,或者说我们是“无限标签”。
其实很多客户还是不明白这个概念,所以我们只能更具体的介绍一下。
例如,虽然我们有无限的标签,但有时我们不得不说我们有几万个标签,因为这可以给他们一个具体的概念。
这些都是我们在尝试着陆时遇到的困难。
极客公园:有没有哪个客户给你留下了深刻的印象?你没拿出来之前他还不信,你拿出来之后他就震惊了? 赵天成:比如某广电集团,他们也是我们比较大的客户。
他们拥有大量的视频媒体素材,比如新闻广播等。
过去,他们每年花费数百万进行人工编目和标签,以实现资产管理和检索。
当时我们说可以通过机器学习自动生成无限个标签,实现任意检索。
对方不相信,我们就给他们搭建了一个测试系统,让客户自己验证。
那我们就从技术底层来解释一下这个原理。
经过多次使用和讲解,他们内部的一些专业技术专家也认识到了这条技术路线的先进性,后续的合作也变得更加顺利。
极客公园:这是团队经过很长一段时间才想出来的商业方向吗?还是已经想好场景和方向,就根据不同的客户来来去去提供支持? 赵天成:虽然我们当时认为大型车型一定是一个方向,而且我们也一直致力于提升大型车型的基础能力,但商业化方向是通过不断的市场探索慢慢摸索出来的。
在寻找具体的应用场景时,我们尝试了很多行业,也遇到了很多壁垒。
最终我们发现我们重点关注媒体视觉和物联网视觉两大应用场景。
极客公园:从回国到成功落地这么大的客户,花了多长时间? 赵天成:差不多一年多了。
虽然在技术方面,我们在美国已经积累了一些经验,但回来后并不是从零开始。
但到了实际落地的时候,还有很多需要改进的地方。
事实上,要真正落地应用,需要结合大模型能力提升、工具链开发、应用场景确定、应用闭环开发、业务模型确定等一系列因素来实现。
这不仅仅是一个技术问题。
极客公园:当您回到中国时,中国的“人工智能四小虎”非常关注。
这么多年过去了,从这些企业的起起落落中可以吸取哪些教训? 赵天成:我觉得这些公司都非常好。
他们在小模型应用落地上做了很多尝试,在高频领域也有很多成功案例,但在中长尾领域却进展不佳。
这反过来验证了我的判断——如果用小模型来服务中长尾场景,似乎是一条死路。
这个判断更加坚定了我们打造更大模型的决心。
我们看到,只要开发出大车型的商业路径,就会拥有巨大的市场价值。
欧姆视觉语言大模型具备四大核心能力 03 被动智能走向主动智能,一切都将被颠覆。
极客公园:在ChatGPT出来之前,您就已经预测到了大模型技术的行业趋势。
这些年,您对大模型的理解发生了怎样的变化? 赵天成:我这一年多以来一直专注于端到端的生成模型训练。
其核心思想与如今的大型模型训练如出一辙,即先构建一个上限极高的神经网络模型,然后通过大量无监督的数据对数据进行自回归学习,从而达到复合能力原本需要N个专家系统模块的组合。
这些年来,大模型学习最大的变化就是它一次又一次刷新了我对于这种学习方法所能达到的上限和开发速度的预期,也让我更加坚信了这种方法论的正确性。
早年,端到端模型能够实现AI平滑生成自然语言。
后来能够顺利回答用户的问题已经是非常了不起的成就了。
然而,现在GPT-4不仅可以生成流利的语言并回答问题,还可以主动选择不同的工具并生成思维和推理链。
这在当时是难以想象的事情。
当时这个过程只能手动定义,无法由AI本身来完成。
现在,无论大型多模态模型还是大型语言模型,都逐渐具备了自行生成整个推理环节或决策环节的能力。
我觉得这是一个颠覆性的改变,也让今天的AI Agent开始具备主动思考的能力和决策的能力。
联慧科技智能管家机器人照顾老人。
极客公园:那么这些年的变化让AI大规模商业化成为可能? 赵天成:是的,这些年最大的变化就是从以前的被动智能——用户问问题,AI回答问题,变成了现在的主动智能——用户问问题,AI回答问题不仅回答了他直接的问题,还积极思考其他问题。
用户甚至不需要提出问题,AI本身就可以根据其观察主动发现问题并给出解决建议。
例如,在零售场景中,如果AI通过视频分析发现超市里的咖啡洒了,它会自动想到需要清理,或者通知人清理。
这样,从观察到行动的决策方案,以前只能通过手动设置,现在可以自动实现。
这是一个相对颠覆性的变化,从被动智能演变为主动智能。
联慧科技的巡店机器人进行店铺管理。
当人工智能从被动智能发展到主动智能时,将具有更多的商业应用价值,才有可能实现大规模商业化。
极客公园:联汇科技团队很早就开始尝试AI落地场景。
您现在还可以透露哪些其他实施场景吗? 赵天成:很多AI应用还是主要基于纯语言模型。
我们的特点是专注于多模态大模型,特别是视觉和语言这两种模态。
视觉与语言结合的应用场景有很多。
比如媒体领域有很多内容创作的需求。
我们正在打造一个产品,采用基于大型视觉语言模型的智能代理框架,实现导演层面的自动化和主动智能,解决导演最头疼的内容创意问题。
该产品可以根据内容主题要求,自动分析内容主题是什么。
,需要什么材料,如何去掉镜头,最终要用什么样的叙事线,让AI来做一步一步的推理过程。
视频 肖欧文胜的视频 另外,比如智能家居、智能零售等很多场景都是在中国做的。
过去,安装在家庭或商店的摄像头只是观察者,只会识别预定目标,例如有人闯入,然后通知你观看视频播放。
但一旦这些摄像头配备了主动智能,每个设备就可以主动思考。
,就变成了虚拟店长和虚拟保姆,非常有想象力。
OmBot自主智能体:面向行业的多模态智能体系列04大模型 B端市场是丛林,不是决战极客园:联辉科技在AI商业化方面非常成功,尤其是B端。
其中有哪些经验值得分享? 赵天成:B端场景和C端场景不一样。
B端必然会有个性化的需求。
因此,如何以较低的成本满足这些个性化需求就显得非常重要。
在过去的几年里,我们一直致力于加强我们大模型的能力,并开发相应的微调工具链。
在此基础上,用户可以通过Prompt(提示词)完成用户的个性化微调训练,这让定制的成本变得非常低,创造了用户个性化AI服务的新方法。
我们的经验是,在提供B端服务时,一定要考虑权衡。
你不能走定制小模型的道路。
你要学会克制,学会让步、让步。
极客公园:大型AI模型商业化的真正难点是什么? 赵天成:AI技术产品化、满足客户需求需要考虑很多因素。
国内外市场差异较大。
美国在很多技术方面分层更加清晰,生态链的每个环节都可以发展出优秀的企业。
比如有的公司光靠做中间件就可以过上不错的生活。
但国内还没有这么成熟的生态系统,只做中间件很难生存。
因此,在国内市场,AI公司想要实现商业化,其产品必须有“厚度”,这意味着必须对客户有更深入的了解,打造产品闭环。
仅仅使模块变得完美是不够的。
极客公园:前不久举办了OpenAI开发者大会。
很多开发者看完之后,都感觉自己半年甚至一年的辛苦全部化为零。
您对这一趋势有何看法? 赵天成:我觉得OpenAI的商业化尝试和我的预期差不多。
他们肯定会做这些事情。
萨姆·奥尔特曼是一个非常有野心的人,他当然不会放弃这么大的潜在市场。
OpenAI的商业模式对国外开发者影响很大,但我认为他们很快就会在这样的生态系统中找到新的机会。
正如我前面提到的,国内外的AI生态系统存在很大差异,尤其是在2B市场。
OpenAI的模式在中国很难复制。
私有化部署、数据壁垒、国内用户个性化需求等特点都会影响业务实施模式。
所以我们还是坚持把自己的模型做好,把自己的工具链做好,以增强我们本土的长期竞争力。
同时,我们也在结合国内的经营环境探索更多的应用形式,也会借鉴国内外的很多模式。
他山之石可以攻玉。
总体来说,OpenAI的发展对我们的成长还是非常重要的。
有利。
极客公园:联辉科技如何看待或应对中国大型模型的现状? 赵天成:我们主要从几个方面来应对。
首先,我们走差异化路线。
回顾“百模之战”,其实大多数公司都在想方设法重现ChatGPT。
截至目前,他们基本上还处于OpenAI大语言模型的早期阶段,很难看出各个公司产品之间的差异。
我们从一开始就走多式联运路线。
很多时候客户会说我见过文字AI,但没见过能看懂图像的AI。
图片+文字的场景应用非常丰富。
因此,通过差异化,我们可以更好地满足客户需求,提供市场想要的产品。
另外,与很多公司相比,联汇的定位有所不同,因为我们主要服务在B端,这与市场上大多数公司的C端做法不同。
联辉科技拥有丰富、完整的产品体系。
另外,与一些公司盲目拉大模型参数大小的情况相比。
我们更关心的是模型的实际执行能力。
大家也知道微软透露GPT 3.5-Turbo使用的大模型参数只有1亿左右。
因此,必须综合判断模型参数是否合适。
越大并不总是越好。
极客公园:如果现在回国创业,在目前大模型领域的红海形势下,你还会考虑做基础模型吗? 赵天成:如果现在从0开始构建一个基础模型,会比三年前困难很多。
许多队伍已经抵达。
但我不认为大模型领域现在已经进入红海阶段,因为大模型本身已经证明学习和压缩海量数据可以产生智能,但ChatGPT只是大模型的一种形式。

通过大量的预训练,将知识融入到模型中,使其能够产生通用能力,并显现出一定的智能。
这只能作为语言模型来完成吗?我想绝对不是这样的。
它还可以用于其他场景,例如图像、3D或分子结构等。
因此,专注于某个领域的机会还是很多的。
例如,我可以专门制作大型3D模型,或者物理世界的大型模型,例如世界模型。
事实上,三年前,制作大型语言模型存在很大的不确定性。
所以我觉得做基础大模型还是有很多机会的。
关键是要真正理解大模型的方法论,正确选择切入点。
。
极客公园:您如何看待与AI领域各大厂商的关系?是完全竞争还是还有其他的可能性? 赵天成:首先,在人工智能领域,小公司随时都有机会。
就像在美国,很多AI创新都是谷歌提出的,但OpenAI做得比谷歌更好。
我的一些朋友也是2000年在OpenAI实习的,当时公司员工还不到100人。
所以在AI领域,初创企业并不是没有机会,但竞争肯定是不可避免的。
每个企业都必须找到自己的定位。
对于C端场景来说,竞争肯定会很激烈。
大厂商本身拥有强大的用户平台,而小公司可能需要一些真正创新的应用场景和更好的市场策略才能获胜。
但是B端,我认为无论是大厂还是小厂,都不存在赢家通吃的情况,因为B端的行业逻辑和C端不一样。
有一个很好的类比。
C端可能是一种规模战。
大家都在争夺火力。
我有1个坦克,你有1个坦克。
我可以打败你。
但在B面场景中,每个人都是丛林中的猎人。
你可能有火箭发射器,我有狙击步枪。
我的火力没有你强,但谁能杀死这只鹿还不确定。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-21
06-17
06-18
06-17
06-18
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态