“风驰计划”再次升级!阿里云优惠券申请零!零!零!门槛
06-18
脱壳不是核心竞争力,把壳做厚才是。
过去的一年是大车型的元年。
在国产大车型数量不断飙升——超过3000辆的同时,“套管”始终是笼罩在大车型上的一团舆论阴云。
从年初到年末,从百度文心一言到零一玩物,从字节跳动到谷歌双子星,各类“疑似炮轰”事件屡屡登上热搜,并随后被相关方解释和澄清。
。
非AI从业者视炮击为祸害;真正的AI从业者对于脱壳都是非常遮遮掩掩的。
但由于“炮击”本身并没有明确准确的定义,业内对炮击的理解是有一千个读者,有一千个哈姆雷特。
当我们谈论炮击时,我们到底在谈论什么? 不管具体场景如何,谈论shell只是标签。
为了理清大模型脱壳的逻辑,《甲子光年》采访了一些AI从业者和投资者,结合OpenAI、Meta以及国内大模型相关技术论文,从大模型的“炼金”过程出发,看看怎么在哪些步骤和环节中,还有脱壳的空间。
2020年可能是大模型大规模落地的元年,一些AI Native应用会陆续出现。
在积极发展大模型应用生态的同时,我们希望业界对于“脱壳”的讨论能够抛开情绪,回归事实。
1、大模型的统一“芯” 为了更好地理解外壳,有必要区分“外壳”和“芯”的区别。
如今,所有大型模型的核心都源于谷歌大脑团队发布的 Transformer 神经网络架构(Google Brain,与谷歌于 2016 年 4 月收购的 AI 公司 DeepMind 合并,组建了 Google DeepMind)。
Transformer一经问世,就逐渐取代了过去的RNN(循环神经网络)和CNN(卷积神经网络),成为NLP(自然语言处理)前沿研究的标准范式。
《变形金刚》诞生前十年,有一部好莱坞大片在全球上映。
这部电影的英文名字是《变形金刚》。
就像电影中的变形金刚可以灵活变形一样,Transformer 作为神经网络架构也可以通过改变架构组件和参数来衍生出不同的变体。
Transformer 的原始架构由两个核心组件组成——编码器和解码器。
编码器负责理解输入文本,解码器负责生成输出文本。
基于 Transformer 原始架构的“魔改”,衍生出了三种变体架构——仅使用编码器(Encoder-only)、仅使用解码器(Decoder-only)以及两者的混合(Encoder-Decoder)。
这三种变体架构各有一个代表模型——Google的BERT、OpenAI的GPT系列模型、Google的T5。
今天,这三个模型名称通常指的是它们背后的模型架构的名称(这也会在下面提到)。
Transformer的模型架构图,左边是Encoder,右边是Decoder。
图片来自谷歌论文。
2016年之前,NLP模型研究基本集中在算法上,基于BERT、T5和GPT架构的模型全面开花。
这一时期的模型参数较小,基本在10亿量级以内。
其中,谷歌BERT的性能领先,基于BERT架构的模型一度统治阅读理解竞赛排行榜。
直到2010年,OpenAI首次发布论文提出Scaling Laws,NLP研究正式进入大模型时代——大模型基于“大算力、大参数、大数据”,模型性能会像摩尔定律一样不断提升,直到“智能出现”的那一刻。
在此期间,GPT架构的性能逐渐超越BERT和T5,成为大型模型的主流选择。
当今主流的参数超过100亿的大型模型中,除了Google最新发布的Gemini是基于T5架构之外,几乎全部都源自GPT架构。
可以说GPT已经完成了大模型架构核心的统一。
GPT 家族在其中蓬勃发展的大型模型进化树。
图片来自 Github,作者 Mooler 从大型模型的进化脉络来看,如今的所有模型都是“脱壳”的 Transformer 及其三种变体架构。
当然,Transformer 也有“不想躲在外壳后面”的挑战者。
例如,2019 年 12 月 5 日,卡内基梅隆大学和普林斯顿大学的两位教授分别发布了一种名为“Mamba”的新架构,在语言建模性能上与 Transformer 相当。
,并且还解决了一些可扩展性限制。
不过,这种新架构的具体性能还需要时间来检验。
模型架构选择只是第一步。
百川智能创始人兼CEO王小川在一个月前的甲子引力年终盛典上将大模型训练比作“炒菜”,模型架构只是菜谱。
要得到完整的菜肴,还需要烹饪,这就是训练大模型的过程;和成分,即数据。
大模型的烹饪过程大致可以分为两个阶段:Pre-Train 和 Fine-Tune。
预训练是大模型训练的核心部分。
通过将大量的文本信息压缩到模型中,就像学生在寒窗苦读的过程一样,让模型具备世界知识。
OpenAI 创始人之一、特斯拉前 AI 总监 Andrej Karpathy 在今年 5 月的 Microsoft Build 大会上透露:“预训练是在超级计算机中使用数千个 GPU,并可能执行需要几个月的时间来处理互联网——规模数据集,占训练时间的99%。
“经过长时间的预训练,会得到一个基础模型(Base Model),并在基础模型中加入行业特定的数据集。
经过进一步的微调,你会得到一个微调模型,也称为作为行业模型或者垂直模型,Fine-tuning通常分为两个步骤——SFT(监督微调)+RLHF(人类反馈强化学习),其中RLHF是OpenAI的创新设计,它决定了模型可以对齐。
与人类的意图和价值观相一致,并且是训练模型的一个组成部分,预训练的成本极其昂贵,因此 OpenAI 每年或每隔几个月才进行一次训练 ChatGPT。
,而Meta花了1万美元来训练Llama 65B,相比之下,微调成本更低,可能只需要几天甚至一天的时间,因此,只有拥有足够计算能力和财力的大公司也是如此。
作为有资本支持的雄心勃勃的初创公司,将参与基础模型。
虽然“百模型之战”中有不少国产大型模型,但只有10%左右的模型是基础模型,90%的模型都是基于特定数据集进行微调的行业模型和垂直模型。
开源模型。
其中,目前使用最广泛、性能最高的开源基础模型是Meta的Llama 2。
从大型模型的训练过程来看,没有人会对架构选择——“壳”Transformer有任何异议。
但围绕架构的预训练却成为了是否是壳的隐秘角落。
2、“原创派”与“模仿派” 预训练是大模型的核心环节,也是“脱壳”与“自研”之间争议最大的环节。
如前所述,模型架构只是大模型的一个菜谱——目前主要有三大菜谱:BERT、T5和GPT,每个菜谱都会有一个特定的名称——预训练框架。
按照预训练框架的食谱做饭就是预训练的过程。
一个可以肯定的事实是,所有定位于制作基础模型的公司都投入真金白银从头开始完成预训练,但配方的起源分为两类。
*派是标准意义上的“自主开发学校”。
它从菜谱开始,自行开发预训练框架。
这个团体的共同点是布局较早,可以追溯到2000年,这是早在ChatGPT诞生之前就开始的大型模型大赛的发令枪。
百度就是其中之一。
2017年,百度发布了自主研发的预训练框架ERNIE,也就是今天的文心模型。
今天它已经更新到ERNIE-4.0。
值得一提的是,谷歌BERT和百度ERNIE是以美国著名儿童节目《芝麻街》中的角色命名的,他们是一对好友。
另一家早期自行开发预训练框架的大型模型公司是智普AI。
智浦AI成立于2016年,2019年底开始开发自己的预训练框架GLM。
GLM类似于Google T5,也是基于Encoder-Decoder架构。
今年11月,斯坦福大学大型模型中心对全球30个主流大型模型进行了综合评测,GLM-B是亚洲首个入选的大型模型。
除了百度和智普AI之外,还有一些大型闭源模型尚未公开其技术细节。
代表公司有Minimax、Dark Side of the Moon等,有投资人告诉《甲子光年》,这些公司也有自己的预训练框架,但无法准确验证。
总体而言,国内基于自研预训练框架的大型模型公司仅有5家左右。
第二组大型模型公司也从头开始了完整的预训练过程,只不过预训练框架在开源框架的基础上修改了一些参数——主要是Llama 2。
可以称为“模仿组”。
对于开源社区来说,这是非常正常的做法。
开源的意义在于公开自己的研究成果,促进技术的交流与共享,让开源社区的更多研究人员受益。
Llama 2 也是在过去开源模型的肩膀上一步步发展起来的。
例如,Llama 2 的模型架构中,Pre-normalization(预归一化)受到 GPT-3 的启发,SwiGLU(激活函数)受到 PaLM 的启发,Rotary Embeddings(位置编码)受到 GPT-Neo 的启发。
其他模型经常修改这些参数进行预训练。
零一玩物创始人李开复表示:“全球大模型架构经历了GPT2 --> Gopher --> Chinchilla --> Llama 2-> Yi的演变。
业界已经逐渐形成了大模型的通用标准,就像作为移动应用程序开发人员一样,我们将创建 iOS 和 Android 之外的新基础设施。
”值得强调的是,模仿Llama 2并不意味着没有核心竞争力,零一武在文章中提到,模型训练过程就像做菜一样,架构只是决定了烹饪的原材料和粗略步骤。
一个好的模型,还需要更好的“原材料”(数据)和对每一项细节的把控(训练方法和具体参数),“原派”还是“仿派”,这件事到底哪个更好?总而言之,原创者赌的是未来,模仿者赌的是现在。
它有机会达到GPT-3.5的水平,但如何达到GPT-4的水平目前还不清楚。
我看不出有什么办法。
如果底层技术架构始终受限于Llama 2,那么超越GPT的机会就很小了。
”投资人的投资机构投资了多家大型模型公司。
在做出投资决策时,是否有自主开发的预训练框架也是他们的标准之一。
一位AI公司的开发者告诉甲子光年,自主研发的预训练模型的优势在于可扩展性强。
“如果是基于开源的,就有版本限制。
例如,Llama 2只有三个版本:7B、13B和70B。
不管有多少个版本,都不会再有了。
如果我们想把它做得更大,我们就做不到。
” 不过,理想很丰满,但原来预训练架构的优点在理论阶段仍然存在。
短期来看,无论是自研还是仿制的Llama 2,都处于GPT-3.5的水平,性能差距并不大。
另一位AI投资人对“甲子光年”表示:“现阶段开源框架基本达到了GPT-3.5的水平。
因此,如果选择从头开始开发一个与开源同等水平的预训练框架源码框架,不如直接选择模仿 Llama 2 更高效稳定,除非你有能力开发出达到 GPT-4 甚至下一代 GPT-5 能力的模型,这里指的能力。
有技术能力和足够的资金来维持,因为目前预计GPT-5的训练可能需要30,000-50,000 H,成本是1-20亿美元。
”比拼的不是预训练框架的性能,而是工程能力。
业内一般称为AI Infra——AI基础设施。
昆仑万维AI Infra负责人程程将大模型的发展分为三个阶段:2009年之前的算法研究阶段、2009年~2009年的数据为王阶段、2019年的AI Infra阶段。
他预测未来大模型算法研究必然会向Infra方向探索:稀疏注意力(Sparse Attention,Sparse GEMM/MoE)将是未来学术界和工业界的主战场。
3. 收集GPT 数据。
预训练完成后,就进入微调阶段。
事实上,这个阶段是大多数“壳”大模型翻车的原因,与数据集的质量有直接关系。
数据的使用贯穿于大模型预训练、SFT、RLHF的各个阶段。
在预训练阶段,数据“多但不精确”。
由于预训练使用的是公开的互联网数据,因此不同大模型最终获得的知识储备是相似的。
明显的差异点出现在微调阶段,数据“精而不过度”。
例如,在进行微调时,Llama 2 研究人员发现大多数第三方 SFT 数据集缺乏多样性和质量,因此他们自己构建了 0 个高质量注释数据集,这可以显着提高 SFT 的性能。
但并非所有公司都像 Meta 那样财力雄厚。
有没有更高效的方法来获取高质量的数据集? 是的,通过从 ChatGPT 等会话模型中“窃取”数据。
这里的窃取并不是窃取,而是直接利用ChatGPT或GPT-4等对话模型生成的数据进行微调。
这些合成数据不仅保证了数据的多样性,而且经过OpenAI比对后都是高质量的数据。
Cameron R. Wolfe,美国电商初创公司 Rebuy 的 AI 总监,博士。
在深度学习中,将这种大模型研究方法称为“模仿学习”,并表示模仿学习明显受到“知识蒸馏”的启发。
知识蒸馏是机器学习中的标准模型压缩方法。
它将复杂的模型视为“教师模型”,将简单的模型视为“学生模型”,通过教师教学生的方式传递知识。
模仿学习的原理,图片来自Cameron R. Wolfe的博客。
Meta发布Llama 1系列模型后,迅速催生了开源社区各种仿制模型的诞生。
比较知名的有斯坦福大学、加州大学伯克利分校等大学。
该组织推出的Alpaca、Vicuna、Koala,以及NomicAI推出的GPT4ALL,这些模型都使用ChatGPT对话数据进行微调。
值得一提的是,OpenAI在其服务条款中明确禁止使用ChatGPT生成的数据来开发与OpenAI竞争的模型。
因此,上述仿制模型不能用于商业用途。
但事实上,各种商业模式都在通过“窃取”数据来走微调的捷径。
这是一个公开的秘密,并且不限于国家。
今年12月,字节跳动、谷歌双子座的“疑似炮轰”事件由此而来。
据字节跳动方面回应,年初有工程师使用OpenAI的API服务进行实验模型研究,但并未上线。
这种行为后来被禁止。
从实际角度来看,字节跳动“只是犯了一个世界上所有模式都会犯的错误”。
一位做NLP研究的科学家告诉《甲子光年》:“OpenAI可能预感到字节跳动可以花钱建模型,所以提前打压了。
但事实上,这并没有限制大型模型的训练。
效果就是‘侮辱’。
”谷歌Gemini也面临着类似的情况。
由于缺乏高质量的中文数据集,谷歌极有可能通过闻心一言获取大量中文??对话数据来充当双子座的“老师”。

不过,或许是因为急于追赶OpenAI,数据清理和自我认知对齐没有做好,导致Gemini把文馨老师的话当成了自己的话。
国内某大型模型公司的算法工程师向“九子光年”抱怨:“大家都在互相薅羊毛,你要用,但要用得小心,一不小心就尴尬了。
” 4、让“壳”更厚,更具竞争力。
在预训练阶段模仿Llama。
2、微调阶段“窃取”ChatGPT数据是产生“脱壳”争议的两个主要场景。
它们也是大模型训练过程中决定模型能力的关键场景。
如果将范围扩大到模型的推理和应用,就会出现更多的“脱壳”场景。
前语雀设计师、现AI助手Monica联合创始人Suki在集集上分享了“脱壳”的四级进阶: 第一级:直接参考OpenAI界面,ChatGPT回答什么,脱壳产品回答什么。
体积 UI、形式、成本。
第二级:构建提示。
大模型可以比作研发,Prompt可以比作需求文档。
需求文件越清晰,研发实施就越准确。
袖套产品可以积累自己的优质Prompt,roll Prompt品质高,roll Prompt是分布式的。
第 3 级:嵌入特定数据集。
对特定数据集进行向量化,在某些场景下构建自己的向量数据库,以回答 ChatGPT 无法回答的问题。
比如垂直领域、私有数据等。
Embedding可以将段落文本编码成固定维度的向量,从而便于语义相似度比较。
与Prompt相比,它可以进行更精准的检索,获得更专业的答案。
第 4 级:微调。
使用高质量的问答数据进行二次训练,使模型更好地匹配特定任务的理解。
与Embedding和Prompt消耗大量token相比,fine-tuning是训练大模型本身,消耗的token更少,响应速度更快。
如果还包括模仿Llama2架构的预训练,可以算是第五层。
这五个级别的进阶基本涵盖了大型模型“脱壳”的每一个场景。
值得一提的是,对于上述行为是否可以称为“炮轰”,业内存在不同意见。
算法工程师刘聪对“甲子光年”表示:“我觉得只有一种情况才算骗局——直接API交易,比如一些网站免费使用大模型来收集数据并倒卖数据。
还有一些。
”其实没关系,在to B行业,如果你想打造行业解决方案,仅仅通过脱壳是不行的;即使在to C行业,如果你对产品有自己的理解,你也可以做到。
不能说是炮击。
难道大型模型应用都是用贝壳做的吗? ” “庇护所这个词太贬义了。
”刘聪表示。
没有具体场景就谈论“脱壳”,就是一种贴标签的行为。
当业界失去对脱壳的污名化理解,把不同先进的脱壳行为视为正常的商业行为时,才能分析大型企业的优劣势。
然而,大型模型厂商在推广时应该更加谨慎地使用“自研”,并详细解释自研的内容,否则只会增加理解上的混乱,“套路”是否具有竞争力?认为,一个AI应用产品如果停留在一二级,就注定是一个门槛很低的产品,三级、二级产品在什么场景、什么时候、如何使用,是不存在任何障碍的。
四阶能力是一个关键问题,一位算法工程师告诉《甲子光年》,大模型真正的关键问题是业务的成本结构和护城河,而不是是否被炮轰。
降低成本,把“壳”做厚一些,竞争力自然就产生了。
【本文经投资界合作伙伴微信公众号授权:甲子光年。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-17
06-18
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态