首页 > 科技未来 > 内容

开放代码怎么样?昂贵且资源密集,大规模语言模型民主化越来越困难

发布于:2024-06-18 编辑:匿名 来源:网络

作者 |由本·迪克森编译 |李梅编辑|陈彩娴 5月初,Meta发布了一个可以执行多种不同任务的大规模语言模型:开放预训练Transformer(OPT-B)。

过去几年,大型语言模型(LLM)成为人工智能研究的热点话题之一。

OpenAI发布包含1亿参数的深度神经网络GPT-3后,引发了LLM的“军备竞赛”,而OPT-B是这场竞赛的最新参与者。

GPT-3 表明LLM无需额外训练即可执行许多任务。

随后,微软将GPT-3集成到其多款产品中,不仅展示了LLM在科研方面的前景,还展示了其商业应用的潜力。

OPT-B的独特之处在于Meta对“开放性”的承诺,正如该模型的名称(OpenXX)所暗示的那样。

Meta 已将该模型向公众开放,并发布了有关培训和开发过程的大量详细信息。

在 Meta AI 博客上发表的一篇文章中,Meta 将 OPT-B 的发布描述为“大规模语言模型的民主化访问”。

Meta 走向透明的举措值得称赞。

然而,在大型语言模型的激烈竞争下,民主化变得难以捉摸。

——1——OPTMeta发布的拥有1亿个参数的OPT-B有一些关键特性。

它包括预先训练的模型以及训练和使用LLM所需的代码。

训练神经网络比运行神经网络消耗更多的计算资源,因此预训练模型对于没有计算资源来训练模型的组织特别有用。

它还可以通过减少训练大型神经网络所需的计算资源来帮助避免巨大的碳足迹。

与GPT-3一样,OPT也有不同的规模,参数范围从1.25亿到1亿不等。

参数越多的模型学习能力越强。

目前1亿参数及以下版本均可直接下载。

该模型的完整 1 亿参数版本将通过填写申请表提供给选定的研究人员和机构。

Meta AI 在博客中表示:“为了确保学术诚信并防止滥用,我们将在非商业许可下发布我们的模型,重点关注研究用例。

该模型将授权给学术研究人员使用,并与政府、民间机构合作。

世界各地的社会和学术界相关组织和行业研究实验室。

“除了模型之外,Meta 还发布了完整的日志,提供了大型语言模型的开发和训练过程的详细技术时间表。

通常情况下,发布的论文仅包含有关模型最终版本的信息。

Meta 表示,日志提供了一些有价值的信息,包括“用于训练 OPT-B 的计算量,以及当底层基础设施或训练过程本身大规模变得不稳定时所需的人力开销。

” ——2——Meta:GPT-3 不够透明 Meta 在博文中还表示,大多数大型语言模型都可以通过“付费 API”访问,而限制LLM的访问“限制了研究人员了解这些关于如何进行的已知问题”。

以及为什么大型语言模型的工作阻碍了模型稳健性的进一步提高以及模型偏差和危害性的减少。

”这是对OpenAI的批评,OpenAI发布GPT-3只是为了提供黑盒API服务,而不是公开其模型的权重和源代码,OpenAI声称不公开GPT-3的原因之一是为了控制滥用。

Meta 认为,通过向更广泛的受众提供模型,将有助于研究和防止它们可能造成的任何危害。

Meta 是这样描述他们所做的工作的:我们希望 OPT-B 能够带来更多的声音。

大规模语言模型创建的前沿,帮助社区共同设计负责任的发布策略,增加大规模语言模型在该领域的发展前所未有的透明度和开放性。

但需要注意的是,大型语言模型的“透明性和开放性”并不等同于“民主化”。

大型语言模型的训练、配置和运行成本仍然很高,并且未来可能会继续增加。

根据 Meta 的一篇博客文章,研究人员已经成功地显着降低了训练大型语言模型的成本。

他们表示,该模型的碳足迹已减少至 GPT-3 的七分之一。

此前有专家估计,GPT-3的培训成本高达1万美元。

由此可见OPT-B的培训费用依然是数百万美元。

幸运的是,预先训练的模型将避免训练模型的需要,Meta 表示它将提供一个代码库来“仅使用 16 个 NVIDIA VGPU”来训练和部署完整的模型。

这相当于一台 Nvidia DGX-2,售价约为 40 万美元,对于资金短缺的研究实验室或单个研究人员来说,这仍然是一笔不菲的资金。

根据一篇提供有关 OPT-B 更多细节的论文,Meta 使用块 80GB Agpu 训练其模型,速度明显快于 V。

开放代码怎么样?昂贵且资源密集,大规模语言模型民主化越来越困难

Meta AI 的日志进一步证实训练大型语言模型是一项非常复杂的任务。

OPT-B 的开发进度充满了服务器崩溃、硬件故障和其他需要高技能人员解决的复杂情况。

研究人员还必须多次重新启动训练过程、调整超参数并更改损失函数。

所有这些额外费用都超出了小型实验室的承受能力。

——4—— 民主化的障碍:权力集中在少数公司手中。

OPT 和 GPT 等语言模型基于 Transformer 架构。

Transformer 的主要功能之一是它能够并行且大规模地处理大型顺序数据(例如文本)。

近年来,研究人员表明,可以通过在 Transformer 架构中添加更多层和参数来提高语言任务的性能。

一些研究人员认为,达到更高的智力水平只是一个规模问题。

因此,Meta AI、DeepMind(Alphabet 所有)和 OpenAI(微软赞助)等资金雄厚的研究实验室正在致力于创建越来越大的神经网络,例如 DeepMind 最新的多模态 AI 系统 Gato。

去年,微软和 Nvidia 创建了一个价值 1 亿个参数的语言模型,名为 Megatron-Turing (MT-NLG)。

上个月,谷歌推出了 Pathways 语言模型(PaLM),这是一个包含数亿个参数的大规模语言模型。

甚至有传言称 OpenAI 将在未来几个月内发布 GPT-4。

然而,更大的神经网络也需要更多的财务和技术资源。

虽然更大的语言模型将有更多新的花哨(和新的失败),但它们也将不可避免地将权力集中在少数富有的公司手中,从而导致更小的研究实验室和独立研究人员。

大语言模型的研究更是困难重重。

在商业方面,大型科技公司将拥有更大的优势。

运行大型语言模型非常昂贵且具有挑战性。

谷歌和微软等公司拥有专门的服务器和处理器,因此他们可以大规模运行这些模型并盈利。

对于较小的公司来说,创建自己的LLM版本(例如 GPT-3)的成本太高。

正如大多数企业使用云托管服务而不是构建自己的服务器和数据中心一样,随着大型语言模型变得更加流行,像 GPT-3 API 这样的开箱即用系统将变得更具吸引力。

这反过来又将进一步将人工智能集中到大型科技公司手中。

更多人工智能研究实验室将不得不与大型科技公司合作以获得研究资金。

这将赋予大型科技公司更大的权力来决定人工智能未来的研究方向(符合其经济利益的方向)。

短期内没有投资回报的研究领域可能就是成本。

最重要的是,当我们庆祝 Meta 为LLM带来的透明度时,我们不要忘记大型语言模型本质上仍然是不民主的,它们只会让更多推广它们的公司受益。

开放代码怎么样?昂贵且资源密集,大规模语言模型民主化越来越困难

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 工信部:2020年第四季度共受理用户投诉29052件,同比下降41.6%

    工信部:2020年第四季度共受理用户投诉29052件,同比下降41.6%

    今天,工信部公布全国电信服务质量情况今年第四季度。 通知显示,今年四季度,各级电信投诉受理机构共受理电信用户投诉2件,环比下降12.8%,同比下降41.6%。 其中,用户服务投诉占50.3%,收费纠纷投诉占28.2%,网络质量投诉占21.5%。

    06-18

  • “饥饿营销”这么烂的把戏,为什么中兴移动还玩呢?

    “饥饿营销”这么烂的把戏,为什么中兴移动还玩呢?

    9点、10点、10点08分、12点……这些看似平常的时间点,却成为了“手机买党”最紧张的心跳时刻。 然而,最常见的结果是厂家宣布售空,抢购方无奈无功而返。 这种被无数人诟病的“饥饿营销”方式,从鼻祖小米开始蔓延到整个手机行业。 就连中兴、华为这样的传统手机厂商也开始在

    06-18

  • oTMS宣布完成C1轮融资,投资方为招商局创投,

    oTMS宣布完成C1轮融资,投资方为招商局创投,

    据投资界12月28日消息,互联网+交通管理平台oTMS宣布完成招商创投C1轮战略融资。 此前,oTMS已获得多轮融资。 详情如下表: oTMS是中国领先的一站式交通服务平台。 oTMS基于首个社区化的“SaaS平台+移动APP”模式,整合了货主、第三方物流公司、运输公司。 公司、司机、收货

    06-18

  • 运动医学公司德美医疗获数千万元C轮融资,启明创投领投

    运动医学公司德美医疗获数千万元C轮融资,启明创投领投

    投资界最新消息,国内运动医学公司北京德美医疗科技宣布完成数千万元C轮融资C轮融资,启明创投领投。 德美医疗CEO黎建波表示,本轮融资将加速公司核心产品研发引领市场,也将助力公司构建更加良好的内部运营环境。 德美医疗成立于2006年,是一家专注于运动医学产品研发、生产

    06-18

  • SemiWiki:应用材料公司对供应商的强硬态度适得其反

    SemiWiki:应用材料公司对供应商的强硬态度适得其反

    应用材料公司最新财报显示,其每股收益和营收分别为1.94美元和61.23亿美元,均低于华尔街预期的1.96美元63.75 亿美元。 ,而此前传闻的数据是每股收益超过2美元,营收约为65亿美元。 全球知名半导体社区SemiWiki对此进行了分析。 文章认为,与半导体设备行业的其他公司相比,

    06-08

  • 恒大汽车融资260亿元,传百度将重返港股

    恒大汽车融资260亿元,传百度将重返港股

    今日晚间,恒大汽车宣布于2019年1月24日与六位投资者签署认购协议,共发行9.52亿元私募发行价格为每股 27.30 港元。 增发新股,占扩股后公司总股数的9.75%,募集资金总额为1亿港元。 恒大汽车表示,认购价格较公司股票前五个交易日平均收盘价折让8%,且每位投资者同意锁定认购

    06-18

  • 富途证券澄清“见证宝”合规问题

    富途证券澄清“见证宝”合规问题

    富途证券近日在香港召开媒体见面会,回应近期市场关注的公司开户见证一系列问题,并展示其证券开户见证流程。 核心软件产品——富途“见证宝藏”。 富途证券还表示,愿意与同行分享见证宝产品的成套技术,助力推动行业技术创新和发展。 针对有媒体质疑公司“见证卡”合规性的

    06-18

  • 多地出台“十四五”新基建规划,加快新一轮5G建设,

    多地出台“十四五”新基建规划,加快新一轮5G建设,

    创建了头条新闻。 据《证券日报》报道,新一轮5G建设正进入加速期。 近阶段,“十四五”新基建规划多地密集发布,积极释放政策红利推进5G建设。 据悉,5G建设已逐渐成为各城市建设的重点。 例如,四川省颁布的《四川省“十四五”新型基础设施建设规划》提出了5G建设的量化指标

    06-18

  • 150亿,广东预调菜基金集团诞生

    150亿,广东预调菜基金集团诞生

    广东抢占预调菜。 投资界-解码LP获悉,不久前,由广东省农业农村厅指导的广东调理菜双节营销产销对接活动暨颁奖典礼在中国国际调理菜(白云)举行展览及体验中心。 值得一提的是,农业基金设立的广东熟菜产业发展基金体系正式公布。 这是一个准备好的“50亿元母基金和1亿元规

    06-18

  • 日媒:世界半导体市场四年来首次萎缩

    日媒:世界半导体市场四年来首次萎缩

    新华社12月2日《参考消息》一份《日本经济新闻》报道《世界半导体市场规模四年来首次萎缩》2日发布。 文章摘要如下: 全球半导体市场四年来首次萎缩。 一个由主要公司组成的行业团体最近宣布,年度半导体收入将同比下降4%,至1亿美元。 原因在于,除了智能手机需求减少之外,

    06-06

  • 聚焦浙江“9+6”未来产业,金投鼎基金成功注册

    聚焦浙江“9+6”未来产业,金投鼎基金成功注册

    投资社区(ID:pedaily)消息,5月8日,浙江金投鼎新私募基金管理有限公司(以下简称“普金”)旗下私募基金产品正式上线。 杭州金投鼎和股权投资基金合伙企业(有限合伙)(以下简称“鼎和基金”)顺利通过中国证券投资基金业协会注册。 2016年,金控投资公司与浙江出版集团

    06-17

  • 合资车的2023

    合资车的2023

    合资车什么时候退出中国? 保守派认为,合资品牌财力雄厚、基础雄厚,转型成功只是时间问题;大多数激进分子都直接宣判了他们“死刑”:今年只是撤军的开始,明年才是结束。 双方的观点都有道理,但也都基于一个不争的事实,那就是称霸全国40年的合资品牌已经成为牌桌上的边缘

    06-18