首页 > 科技未来 > 内容

开放代码怎么样?昂贵且资源密集,大规模语言模型民主化越来越困难

发布于:2024-06-18 编辑:匿名 来源:网络

作者 |由本·迪克森编译 |李梅编辑|陈彩娴 5月初,Meta发布了一个可以执行多种不同任务的大规模语言模型:开放预训练Transformer(OPT-B)。

过去几年,大型语言模型(LLM)成为人工智能研究的热点话题之一。

OpenAI发布包含1亿参数的深度神经网络GPT-3后,引发了LLM的“军备竞赛”,而OPT-B是这场竞赛的最新参与者。

GPT-3 表明LLM无需额外训练即可执行许多任务。

随后,微软将GPT-3集成到其多款产品中,不仅展示了LLM在科研方面的前景,还展示了其商业应用的潜力。

OPT-B的独特之处在于Meta对“开放性”的承诺,正如该模型的名称(OpenXX)所暗示的那样。

Meta 已将该模型向公众开放,并发布了有关培训和开发过程的大量详细信息。

在 Meta AI 博客上发表的一篇文章中,Meta 将 OPT-B 的发布描述为“大规模语言模型的民主化访问”。

Meta 走向透明的举措值得称赞。

然而,在大型语言模型的激烈竞争下,民主化变得难以捉摸。

——1——OPTMeta发布的拥有1亿个参数的OPT-B有一些关键特性。

它包括预先训练的模型以及训练和使用LLM所需的代码。

训练神经网络比运行神经网络消耗更多的计算资源,因此预训练模型对于没有计算资源来训练模型的组织特别有用。

它还可以通过减少训练大型神经网络所需的计算资源来帮助避免巨大的碳足迹。

与GPT-3一样,OPT也有不同的规模,参数范围从1.25亿到1亿不等。

参数越多的模型学习能力越强。

目前1亿参数及以下版本均可直接下载。

该模型的完整 1 亿参数版本将通过填写申请表提供给选定的研究人员和机构。

Meta AI 在博客中表示:“为了确保学术诚信并防止滥用,我们将在非商业许可下发布我们的模型,重点关注研究用例。

该模型将授权给学术研究人员使用,并与政府、民间机构合作。

世界各地的社会和学术界相关组织和行业研究实验室。

“除了模型之外,Meta 还发布了完整的日志,提供了大型语言模型的开发和训练过程的详细技术时间表。

通常情况下,发布的论文仅包含有关模型最终版本的信息。

Meta 表示,日志提供了一些有价值的信息,包括“用于训练 OPT-B 的计算量,以及当底层基础设施或训练过程本身大规模变得不稳定时所需的人力开销。

” ——2——Meta:GPT-3 不够透明 Meta 在博文中还表示,大多数大型语言模型都可以通过“付费 API”访问,而限制LLM的访问“限制了研究人员了解这些关于如何进行的已知问题”。

以及为什么大型语言模型的工作阻碍了模型稳健性的进一步提高以及模型偏差和危害性的减少。

”这是对OpenAI的批评,OpenAI发布GPT-3只是为了提供黑盒API服务,而不是公开其模型的权重和源代码,OpenAI声称不公开GPT-3的原因之一是为了控制滥用。

Meta 认为,通过向更广泛的受众提供模型,将有助于研究和防止它们可能造成的任何危害。

Meta 是这样描述他们所做的工作的:我们希望 OPT-B 能够带来更多的声音。

大规模语言模型创建的前沿,帮助社区共同设计负责任的发布策略,增加大规模语言模型在该领域的发展前所未有的透明度和开放性。

但需要注意的是,大型语言模型的“透明性和开放性”并不等同于“民主化”。

大型语言模型的训练、配置和运行成本仍然很高,并且未来可能会继续增加。

根据 Meta 的一篇博客文章,研究人员已经成功地显着降低了训练大型语言模型的成本。

他们表示,该模型的碳足迹已减少至 GPT-3 的七分之一。

此前有专家估计,GPT-3的培训成本高达1万美元。

由此可见OPT-B的培训费用依然是数百万美元。

幸运的是,预先训练的模型将避免训练模型的需要,Meta 表示它将提供一个代码库来“仅使用 16 个 NVIDIA VGPU”来训练和部署完整的模型。

这相当于一台 Nvidia DGX-2,售价约为 40 万美元,对于资金短缺的研究实验室或单个研究人员来说,这仍然是一笔不菲的资金。

根据一篇提供有关 OPT-B 更多细节的论文,Meta 使用块 80GB Agpu 训练其模型,速度明显快于 V。

开放代码怎么样?昂贵且资源密集,大规模语言模型民主化越来越困难

Meta AI 的日志进一步证实训练大型语言模型是一项非常复杂的任务。

OPT-B 的开发进度充满了服务器崩溃、硬件故障和其他需要高技能人员解决的复杂情况。

研究人员还必须多次重新启动训练过程、调整超参数并更改损失函数。

所有这些额外费用都超出了小型实验室的承受能力。

——4—— 民主化的障碍:权力集中在少数公司手中。

OPT 和 GPT 等语言模型基于 Transformer 架构。

Transformer 的主要功能之一是它能够并行且大规模地处理大型顺序数据(例如文本)。

近年来,研究人员表明,可以通过在 Transformer 架构中添加更多层和参数来提高语言任务的性能。

一些研究人员认为,达到更高的智力水平只是一个规模问题。

因此,Meta AI、DeepMind(Alphabet 所有)和 OpenAI(微软赞助)等资金雄厚的研究实验室正在致力于创建越来越大的神经网络,例如 DeepMind 最新的多模态 AI 系统 Gato。

去年,微软和 Nvidia 创建了一个价值 1 亿个参数的语言模型,名为 Megatron-Turing (MT-NLG)。

上个月,谷歌推出了 Pathways 语言模型(PaLM),这是一个包含数亿个参数的大规模语言模型。

甚至有传言称 OpenAI 将在未来几个月内发布 GPT-4。

然而,更大的神经网络也需要更多的财务和技术资源。

虽然更大的语言模型将有更多新的花哨(和新的失败),但它们也将不可避免地将权力集中在少数富有的公司手中,从而导致更小的研究实验室和独立研究人员。

大语言模型的研究更是困难重重。

在商业方面,大型科技公司将拥有更大的优势。

运行大型语言模型非常昂贵且具有挑战性。

谷歌和微软等公司拥有专门的服务器和处理器,因此他们可以大规模运行这些模型并盈利。

对于较小的公司来说,创建自己的LLM版本(例如 GPT-3)的成本太高。

正如大多数企业使用云托管服务而不是构建自己的服务器和数据中心一样,随着大型语言模型变得更加流行,像 GPT-3 API 这样的开箱即用系统将变得更具吸引力。

这反过来又将进一步将人工智能集中到大型科技公司手中。

更多人工智能研究实验室将不得不与大型科技公司合作以获得研究资金。

这将赋予大型科技公司更大的权力来决定人工智能未来的研究方向(符合其经济利益的方向)。

短期内没有投资回报的研究领域可能就是成本。

最重要的是,当我们庆祝 Meta 为LLM带来的透明度时,我们不要忘记大型语言模型本质上仍然是不民主的,它们只会让更多推广它们的公司受益。

开放代码怎么样?昂贵且资源密集,大规模语言模型民主化越来越困难

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 国内自主研发的隐私计算TEE技术通过金融科技产品认证,蚂蚁集团主导研发的

    国内自主研发的隐私计算TEE技术通过金融科技产品认证,蚂蚁集团主导研发的

    HyperEnclave 1.0,蚂蚁集团研发的国内首个金融级信任创建TEE系统,近日通过金融科技产品认证北京国家金融技术认证中心。 TEE功能 47个项目(CA与TA交互、数据存储、加解密算法等)和TEE安全(硬件安全、系统软件层安全等)全部通过测试,达到金融机构的功能和安全标准级产品

    06-18

  • 霸屏热搜!上海万圣节变身“中国万茎节”,人均疯狂值+10086

    霸屏热搜!上海万圣节变身“中国万茎节”,人均疯狂值+10086

    今年的万圣节尤为不同。 主旋律是人均疯狂的三维cosplay。 “向太”亲临、“那个姐姐”打开麦克风、“李贵在哪儿”阴阳、“知王”视察、“安小鸟”摘荷花、“空姐晓彤”与你共舞……万圣节是个外国节日在中国已经达到前所未有的本土化程度,外国妖魔鬼怪只能靠边站。 娱乐圈的

    06-21

  • “基因编辑婴儿”  案宣判!贺建奎一审获刑三年,罚款 300 万

    “基因编辑婴儿” 案宣判!贺建奎一审获刑三年,罚款 300 万

    “基因编辑婴儿”案宣判!贺建奎一审被判处三年有期徒刑,并处罚金300万。 曾经震惊社会、轰动一时的“基因编辑婴儿”事件有了新的重大进展。 贺建奎被判处有期徒刑三年,并处罚金人民币1万元。 据新华社报道,12月30日,“基因编辑婴儿”一审案件在深圳市南山区人民法院公开

    06-17

  • iPhone 12 采用系统级封装模组,日月光或成大赢家

    iPhone 12 采用系统级封装模组,日月光或成大赢家

    台湾商报消息 苹果有望在今年下半年推出首款支持 5G 的 iPhone 12,因为内部元器件和5G手机的结构设计与4G手机明显不同,根据供应链的说法,苹果在设计中使用了大量的系统级封装(SiP)模块,这意味着它将发布大量的SiP明年封测OEM订单。 此外,无线蓝牙耳机AirPods也将开始引

    06-06

  • 仅使用 Apple Watch 来计算步数和查看通知?这些快捷键让你的手表更智能

    仅使用 Apple Watch 来计算步数和查看通知?这些快捷键让你的手表更智能

    你用过iPhone的“快捷键”吗?只需一键,即可帮我们扫描二维码拼图拨打电话、翻译、阅读、查快递。 原本复杂的操作,通过《快捷指令》,一键一声,轻松完成。 如此便捷的操作不只限于iPad和iPhone,Apple Watch也可以使用《快捷指令》,让原本繁琐的操作变得更加简单。 苹果手

    06-21

  • 拒绝国际漫游天价,vivo Xplay5促销i漫游帮你省钱

    拒绝国际漫游天价,vivo Xplay5促销i漫游帮你省钱

    上周美国队长vivo旗舰店)及全国各大vivo线下门店、专柜正式开售,再次激发消费者对高端旗舰手机的热情。 据了解,目前该机在线下非常受欢迎,供大于求,而部分线上平台已经售空,或将再次刷新国产高端旗舰机的销售新纪录。 同时,vivo还在手机上更新了一项新功能——i漫游,

    06-18

  • 韩媒:三星正在研究用于芯片生产的聚焦环新材料

    韩媒:三星正在研究用于芯片生产的聚焦环新材料

    据韩媒TheElec报道,三星正在研发一种用于制造聚焦环的新材料。 聚焦环是用于晶圆制造蚀刻过程的商业产品。 它将晶圆固定到位,以保持等离子体密度并防止晶圆侧面受到污染。 过去,石英和硅被用来制造聚焦环。 但随着先进晶圆制造中干法蚀刻而非湿法蚀刻的使用增加,对由碳化

    06-08

  • 青莲百奥完成首轮数千万元融资,德联资本独家投资

    青莲百奥完成首轮数千万元融资,德联资本独家投资

    投资圈(ID:pedaily)3月30日消息,专注于创新蛋白质组学检测技术的北京青莲百奥生物科技有限公司,清联百奥股份有限公司(以下简称“清联百奥”)完成首轮数千万元融资。 本轮融资由德联资本独家投资,探针资本担任独家财务顾问。 募集资金将用于升级打造“一站式蛋白质组学

    06-17

  • 艺术培训机构君岭获远宁投资近亿元B轮融资

    艺术培训机构君岭获远宁投资近亿元B轮融资

    据投资界9月4日消息,近日,艺术培训机构君岭梦联教育宣布完成远宁投资领投明投、友诚创投紧随其后。 1亿元B轮融资。 据悉,本轮融资将主要用于升级硬件设施、改善员工福利以及引进人才。   君岭梦联教育创始人和首席执行官肖君表示:“本次融资的部分资金将用于升级硬件和

    06-17

  • 2023中国实体经济发展大会在东莞召开

    2023中国实体经济发展大会在东莞召开

    9月23日,中国实体经济发展大会由国民党中央、政协广东省委员会主办,东莞市人民政府承办。 政府和国民党广东省委员会。 会议主题为“聚焦技术创新,赋能先进制造”。 制造业作为国民经济的支柱产业,是建设现代化经济体系的重要基础,是国家创造力、竞争力和综合国力的重要体

    06-18

  • 石药集团医药部重组,打造400亿巨头

    石药集团医药部重组,打造400亿巨头

    近日,石药创新药业股份有限公司(原名:石药新诺维药业有限公司,以下简称“新诺维”)发布公告称,公司拟以发行股份及支付现金方式收购石药集团北科(山东)生物制药有限公司(北科生物)%股权,并筹集配套资金。 本次交易预计构成重大资产重组,不构成重组上市。 公司股票

    06-17

  • 华通集团与平安证券启动设立15亿元静态交通产业基金

    华通集团与平安证券启动设立15亿元静态交通产业基金

    据投资界5月24日消息,《青岛华资平安静态交通产业基金合作备忘录》正式签约,华通集团与平安证券将设立首期总规模15亿元,期限为10年期的产业基金。 据了解,该基金专门用于支持停车场产业化投资。 将把全国最先进的智慧停车系统和管理模式引入青岛市,并引入平安“汽车生态

    06-18