国内自主研发的隐私计算TEE技术通过金融科技产品认证,蚂蚁集团主导研发的
06-18
作者 |由本·迪克森编译 |李梅编辑|陈彩娴 5月初,Meta发布了一个可以执行多种不同任务的大规模语言模型:开放预训练Transformer(OPT-B)。
过去几年,大型语言模型(LLM)成为人工智能研究的热点话题之一。
OpenAI发布包含1亿参数的深度神经网络GPT-3后,引发了LLM的“军备竞赛”,而OPT-B是这场竞赛的最新参与者。
GPT-3 表明LLM无需额外训练即可执行许多任务。
随后,微软将GPT-3集成到其多款产品中,不仅展示了LLM在科研方面的前景,还展示了其商业应用的潜力。
OPT-B的独特之处在于Meta对“开放性”的承诺,正如该模型的名称(OpenXX)所暗示的那样。
Meta 已将该模型向公众开放,并发布了有关培训和开发过程的大量详细信息。
在 Meta AI 博客上发表的一篇文章中,Meta 将 OPT-B 的发布描述为“大规模语言模型的民主化访问”。
Meta 走向透明的举措值得称赞。
然而,在大型语言模型的激烈竞争下,民主化变得难以捉摸。
——1——OPTMeta发布的拥有1亿个参数的OPT-B有一些关键特性。
它包括预先训练的模型以及训练和使用LLM所需的代码。
训练神经网络比运行神经网络消耗更多的计算资源,因此预训练模型对于没有计算资源来训练模型的组织特别有用。
它还可以通过减少训练大型神经网络所需的计算资源来帮助避免巨大的碳足迹。
与GPT-3一样,OPT也有不同的规模,参数范围从1.25亿到1亿不等。
参数越多的模型学习能力越强。
目前1亿参数及以下版本均可直接下载。
该模型的完整 1 亿参数版本将通过填写申请表提供给选定的研究人员和机构。
Meta AI 在博客中表示:“为了确保学术诚信并防止滥用,我们将在非商业许可下发布我们的模型,重点关注研究用例。
该模型将授权给学术研究人员使用,并与政府、民间机构合作。
世界各地的社会和学术界相关组织和行业研究实验室。
“除了模型之外,Meta 还发布了完整的日志,提供了大型语言模型的开发和训练过程的详细技术时间表。
通常情况下,发布的论文仅包含有关模型最终版本的信息。
Meta 表示,日志提供了一些有价值的信息,包括“用于训练 OPT-B 的计算量,以及当底层基础设施或训练过程本身大规模变得不稳定时所需的人力开销。
” ——2——Meta:GPT-3 不够透明 Meta 在博文中还表示,大多数大型语言模型都可以通过“付费 API”访问,而限制LLM的访问“限制了研究人员了解这些关于如何进行的已知问题”。
以及为什么大型语言模型的工作阻碍了模型稳健性的进一步提高以及模型偏差和危害性的减少。
”这是对OpenAI的批评,OpenAI发布GPT-3只是为了提供黑盒API服务,而不是公开其模型的权重和源代码,OpenAI声称不公开GPT-3的原因之一是为了控制滥用。
Meta 认为,通过向更广泛的受众提供模型,将有助于研究和防止它们可能造成的任何危害。
Meta 是这样描述他们所做的工作的:我们希望 OPT-B 能够带来更多的声音。
大规模语言模型创建的前沿,帮助社区共同设计负责任的发布策略,增加大规模语言模型在该领域的发展前所未有的透明度和开放性。
但需要注意的是,大型语言模型的“透明性和开放性”并不等同于“民主化”。
大型语言模型的训练、配置和运行成本仍然很高,并且未来可能会继续增加。
。
根据 Meta 的一篇博客文章,研究人员已经成功地显着降低了训练大型语言模型的成本。
他们表示,该模型的碳足迹已减少至 GPT-3 的七分之一。
此前有专家估计,GPT-3的培训成本高达1万美元。
由此可见OPT-B的培训费用依然是数百万美元。
幸运的是,预先训练的模型将避免训练模型的需要,Meta 表示它将提供一个代码库来“仅使用 16 个 NVIDIA VGPU”来训练和部署完整的模型。
这相当于一台 Nvidia DGX-2,售价约为 40 万美元,对于资金短缺的研究实验室或单个研究人员来说,这仍然是一笔不菲的资金。
根据一篇提供有关 OPT-B 更多细节的论文,Meta 使用块 80GB Agpu 训练其模型,速度明显快于 V。

Meta AI 的日志进一步证实训练大型语言模型是一项非常复杂的任务。
OPT-B 的开发进度充满了服务器崩溃、硬件故障和其他需要高技能人员解决的复杂情况。
研究人员还必须多次重新启动训练过程、调整超参数并更改损失函数。
所有这些额外费用都超出了小型实验室的承受能力。
——4—— 民主化的障碍:权力集中在少数公司手中。
OPT 和 GPT 等语言模型基于 Transformer 架构。
Transformer 的主要功能之一是它能够并行且大规模地处理大型顺序数据(例如文本)。
近年来,研究人员表明,可以通过在 Transformer 架构中添加更多层和参数来提高语言任务的性能。
一些研究人员认为,达到更高的智力水平只是一个规模问题。
因此,Meta AI、DeepMind(Alphabet 所有)和 OpenAI(微软赞助)等资金雄厚的研究实验室正在致力于创建越来越大的神经网络,例如 DeepMind 最新的多模态 AI 系统 Gato。
去年,微软和 Nvidia 创建了一个价值 1 亿个参数的语言模型,名为 Megatron-Turing (MT-NLG)。
上个月,谷歌推出了 Pathways 语言模型(PaLM),这是一个包含数亿个参数的大规模语言模型。
甚至有传言称 OpenAI 将在未来几个月内发布 GPT-4。
然而,更大的神经网络也需要更多的财务和技术资源。
虽然更大的语言模型将有更多新的花哨(和新的失败),但它们也将不可避免地将权力集中在少数富有的公司手中,从而导致更小的研究实验室和独立研究人员。
大语言模型的研究更是困难重重。
在商业方面,大型科技公司将拥有更大的优势。
运行大型语言模型非常昂贵且具有挑战性。
谷歌和微软等公司拥有专门的服务器和处理器,因此他们可以大规模运行这些模型并盈利。
对于较小的公司来说,创建自己的LLM版本(例如 GPT-3)的成本太高。
正如大多数企业使用云托管服务而不是构建自己的服务器和数据中心一样,随着大型语言模型变得更加流行,像 GPT-3 API 这样的开箱即用系统将变得更具吸引力。
这反过来又将进一步将人工智能集中到大型科技公司手中。
更多人工智能研究实验室将不得不与大型科技公司合作以获得研究资金。
这将赋予大型科技公司更大的权力来决定人工智能未来的研究方向(符合其经济利益的方向)。
短期内没有投资回报的研究领域可能就是成本。
最重要的是,当我们庆祝 Meta 为LLM带来的透明度时,我们不要忘记大型语言模型本质上仍然是不民主的,它们只会让更多推广它们的公司受益。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-08
06-17
06-17
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态