首页 > 科技未来 > 内容

大模型是不是有点太多了?

发布于:2024-06-18 编辑:匿名 来源:网络

上个月,AI行业爆发了一场“动物大战”。

一方面是Meta推出的Llama,由于其开源特性一直深受开发者社区的欢迎。

在认真研究Llama论文和源代码后,NEC(日本电气)迅速“自主开发”了日语版ChatGPT,帮助日本解决了AI卡顿问题。

另一边是一个名为Falcon的大型模型。

今年5月,Falcon-40B问世,击败Llama登上“开源LLM(大语言模型)排行榜”榜首。

该榜单由开源模型社区Hugging Face制作,提供了一套衡量LLM能力的标准并对其进行排名。

排行榜基本都是Llama和Falcon轮流排名。

《Llama 2》推出后,Llama家族卷土重来;但9月初,Falcon推出B版本,再次取得了更高的排名。

Falcon以68.74分击败Llama 2。

有趣的是,“猎鹰”的开发商并不是一家科技公司,而是位于阿联酋首都阿布扎比的科技创新研究所。

人士政府表示,“我们参与这场游戏是为了颠覆核心玩家”[4]。

B版本发布次日,阿联酋人工智能部长奥马尔被《时代周刊》评选为“人工智能领域最具影响力人物”;与这张中东面孔一起入选的还有“AI教父”Hinton和OpenAI。

奥特曼、李彦宏。

如今,AI领域早已进入“示范”阶段:各国和有一定财力的企业都或多或少有打造“XX中国版ChatGPT”的计划。

仅在海湾国家的圈子里,玩家就不止一个——8月份,沙特刚刚帮助国内大学购买了多件H用于培养LLM。

金沙江创投的朱啸虎曾在朋友圈抱怨:“当年我看不起(互联网上)商业模式创新,认为没有任何壁垒:几百个团队的战争,几百辆汽车的战争,一场百播之战;没想到,大规模的硬科技模型创业,还是一场百模具之战……”承诺的高难度硬科技,怎么一个模具就能在一个国家实现?每亩产量10万公斤? 1. 变形金刚吞噬世界。

美国初创企业、中国科技巨头和中东石油大亨能够追求大模型,这一切都归功于那篇著名论文:《Attention Is All You Need》。

在这篇论文中,八位谷歌计算机科学家向全世界公开了 Transformer 算法。

这篇论文目前是人工智能历史上被引用次数第三多的论文。

Transformer的出现拉动了这一轮人工智能热潮的导火索。

无论现在的大型车型是什么国籍,包括惊世骇俗的GPT系列,它们都站在Transformer的肩膀上。

在此之前,“教机器阅读”是一个公认的学术问题。

与图像识别不同,人类在阅读文本时,不仅会关注当前看到的单词和句子,还会根据上下文进行理解。

比如“Transformer”这个词,其实可以翻译为“变形金刚”,但本文的读者肯定不会这样理解,因为大家都知道,这不是一篇关于好莱坞电影的文章。

然而,早年神经网络的输入是相互独立的,不具备理解大段文本甚至整篇文章的能力,因此存在将“open water room”翻译成“开放式水房”。

直到 2000 年,曾在 Google 工作、后来跳槽到 OpenAI 的计算机科学家 Ilya Sutskever 才率先拿出了成果。

他使用循环神经网络(RNN)来处理自然语言,很快使谷歌翻译的性能与竞争产品有所不同。

RNN提出了“循环设计”,让每个神经元既接受当前时刻的输入信息,也接受上一时刻的输入信息,从而使神经网络具有“组合上下文”的能力。

循环神经网络RNN的出现点燃了学术界的研究热情,Transformer论文的作者Noam Shazeer也一度对其痴迷。

然而,开发人员很快意识到 RNN 有一个严重缺陷:该算法使用顺序计算。

虽然可以解决上下文问题,但运行效率不高,且难以处理大量参数。

RNN 的繁琐设计很快让 Shazer 感到厌烦。

因此,从今年年初开始,Shazer 和 7 位同事就开始开发 RNN 的替代品,成果就是 Transformer[8]。

与RNN相比,Transformer有两个变化:首先,它使用位置编码来代替RNN的循环设计,从而实现并行计算。

这一改变极大地提高了 Transformer 的训练效率,使其能够处理大型任务。

数据推动AI进入大模型时代;二是进一步强化情境能力。

随着Transformer一口气解决了很多缺陷,它逐渐发展成为NLP(自然语言处理)的解决方案。

有一种似曾相识的感觉,“Transformer不是天生的,NLP就像长夜”。

就连Ilya也放弃了自己亲自推上神坛的RNN,转投Transformer。

换句话说,Transformer是当今所有大型模型的始祖,因为他将大型模型从一个理论研究问题变成了一个纯粹的工程问题。

LLM技术发展树图,灰色树根为Transformer[9] 2016年,OpenAI基于Transformer开发了GPT-2,一度令学术界惊叹。

作为回应,谷歌迅速推出了更强大的人工智能,名为 Meena。

与GPT-2相比,Meena在底层算法上没有任何创新。

它仅比 GPT-2 多出 8.5 倍的训练参数和 14 倍的计算能力。

《Transformer》论文的作者谢泽尔对“一堆暴力”感到非常震惊,以至于当场写下了备忘录《米娜吞噬世界》。

Transformer的出现,大大减缓了学术界底层算法的创新。

数据工程、算力规模、模型架构等工程要素日益成为人工智能竞赛胜负的重要因素。

任何有一定技术能力的科技公司都可以打造出大型模型。

因此,计算机科学家吴恩达在斯坦福大学演讲时,提到了一个观点:“AI是工具的集合,包括监督学习、无监督学习、强化学习,以及现在的生成式人工智能。

所有这些都是通用的”技术,类似于电力、互联网等其他通用技术[10]”虽然OpenAI仍是LLM的风向标,但半导体分析机构Semi Analysis认为GPT-4的竞争力来自于工程解决方案——如果是开源的话,任何竞争对手都可以很快重新出现。

分析师预测,其他大型科技公司可能不需要太长时间就能创建出与 GPT-4 性能相当的大型模型 [11]。

“百模之战”不再是一种说辞,而是客观现实。

相关报道显示,截至今年7月,中国大型模特数量已达2万辆,这一数字高于美国。

大模型是不是有点太多了?

已经成功实现弯道超车,各种神话传说已经不足以让国内科技公司指名道姓了[12]。

除了中国和美国之外,一些相对富裕的国家也初步实现了“一国一模式”:除了日本和阿联酋,还有印度政府领导的大模式巴希尼,韩国互联网公司Naver创建的HyperClova X等等。

眼前的战斗,仿佛回到了天空布满泡沫、“金钱能力”相互较量的互联网创业时代。

如前所述,Transformer 将大型模型转变为纯粹的工程问题。

只要有人有钱、有显卡,剩下的就交给参数了。

不过,虽然入场券并不难获得,但这并不意味着每个人都有机会成为AI时代的BAT。

开头提到的“动物战争”就是一个典型案例:虽然Falcon在排行榜上击败了美洲驼,但很难说它对Meta产生了多大的影响。

众所周知,企业开源自己的科研成果不仅是为了与公众分享科技成果,也是为了调动民众的智慧。

随着大学教授、研究机构和中小企业不断使用和改进Llama,Meta可以将这些成果应用到自己的产品中。

对于开源大模型来说,活跃的开发者社区是其核心竞争力。

早在2016年成立AI实验室时,Meta就已经定下了开源的主基调;扎克伯格靠社交媒体生意发家,深谙“改善公共关系”。

例如,10月份,Meta举办了一场特别的“AI版本创建者激励”活动:使用Llama 2解决教育、环境等社会问题的开发者将有机会获得50万美元的资助。

时至今日,Meta的Llama系列已经成为开源LLM的标杆。

截至 10 月初,Hugging Face 开源LLM排行榜前 10 名中,共有 8 个基于 Llama 2 构建,且均使用其开源协议。

仅在 Hugging 脸上,就有超过 1000 个LLM使用了 Llama 2 开源协议 [13]。

截至10月初,Hugging Face上唯一的Future是基于Llama 2的。

当然,像Falcon一样提高性能也未尝不可,但时至今日,市面上大多数的Future仍然与GPT有明显的性能差距-4。

例如,日前,GPT-4 在 *AgentBench 测试中以 4.41 分的成绩排名第一。

AgentBench标准由清华大学、俄亥俄州立大学、加州大学伯克利分校联合推出。

用于评价LLM在多维开放生成环境下的推理和决策能力。

测试内容包括操作系统、数据库、知识图谱、卡片等。

不同环境下的战斗和其他 8 个任务。

测试结果显示,第二名的克劳德只得到了2.77分,差距还是很明显。

至于目前流行的开源LLM,其测试成绩大多徘徊在1分左右,不到GPT-4的1/4[14]。

AgentBench测试结果 要知道,GPT-4是今年3月份发布的,比全球同行追赶了半年多。

造成这种差距的原因是OpenAI拥有极高“智商密度”的科学家团队以及长期学习LLM积累的经验,因此始终能够遥遥领先。

也就是说,大模型的核心能力不是参数,而是生态构建(开源)或者纯粹的推理能力(闭源)。

随着开源社区变得越来越活跃,每个LLM的表现可能会趋同,因为每个人都在使用相似的模型架构和相似的数据集。

另一个更直观的问题是:除了中途,似乎没有哪个大模式能够赚钱。

3.价值锚今年8月,一篇题为《OpenAI年底可能破产》的文章引起广泛关注[16]。

文章的主旨几乎可以用一句话来概括:OpenAI 烧钱太快了。

文章提到,自ChatGPT开发以来,OpenAI的亏损迅速扩大,短短一年时间就损失了约5.4亿美元,只能等待微软投资者来买单。

文章的标题虽然煽情,但也道出了很多大型模型提供商的现状:成本与收入严重失衡。

成本太高,所以目前靠人工智能赚大钱的只有英伟达,顶多还有博通。

据咨询公司 Omdia 估计,Nvidia 今年第二季度 H 机销量超过 30 万台。

这是一款训练AI极其高效的AI芯片。

世界各地的科技公司和科研机构都争相收购。

如果将售出的 30 万件 H 叠在一起,其重量相当于 4.5 架波音飞机[18]。

英伟达的业绩也起飞,营收同比飙升%,一度震惊华尔街。

顺便说一句,目前H在二手市场的价格已经卖到4万美元到5万美元,但其材料成本只有1万美元左右。

算力成本高昂在一定程度上成为行业发展的阻碍。

红杉资本曾算过一笔账:全球科技公司预计每年花费1亿美元用于大规模模型基础设施建设;相比之下,大型模型每年最多只能产生1亿美元的收入,中间至少还有1亿美元的收入。

缺口达1亿美元[17]。

另外,除了中途这样的少数案例外,大多数软件公司在付出巨大成本后还没有弄清楚如何赚钱。

尤其是行业内的两大领头羊微软和Adobe,更是令人瞠目结舌。

微软和 OpenAI 合作开发了人工智能代码生成工具 GitHub Copilot。

虽然每月收取10美元的费用,但微软将因设施成本而损失20美元。

重度用户甚至会让微软每月花费 80 美元。

据此猜测,售价30美元的微软Copilot可能会损失更多。

无独有偶,刚刚发布Firefly AI工具的Adobe也迅速推出了支持积分系统,以防止用户大量使用给公司造成损失。

一旦用户使用的积分超过每月分配的积分,Adobe 将减慢服务速度。

要知道,微软和Adobe已经是软件巨头,拥有清晰的业务场景和大量现成的付费用户。

对于大多数参数巨大的大型模型来说,最好的应用场景就是聊天。

不可否认,如果没有OpenAI和ChatGPT的出现,这场AI革命可能根本就不会发生;但目前,训练大型模型带来的价值可能值得怀疑。

而且,随着同质化竞争加剧,市场上开源机型越来越多,留给纯大机型供应商的空间可能会越来越少。

iPhone 4受欢迎并不是因为它的45nm工艺A4处理器,而是因为它可以玩植物大战僵尸和愤怒的小鸟。

【本文由投资界合作伙伴元川研究院授权发表。

本平台仅提供信息存储服务。

】如有任何疑问,请联系投资界()。

大模型是不是有点太多了?

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 燕麦饮料如何改变地球这家公司要重新定义“牛奶”

    燕麦饮料如何改变地球这家公司要重新定义“牛奶”

    一家专门生产燕麦奶的公司已上市。 美国东部时间4月19日,瑞典品牌Oatly正式向美国证券交易委员会(SEC)提交招股说明书,申请在纳斯达克公开上市。 招股书显示,Oatly的承销商包括摩根士丹利、瑞士信贷、法国巴黎银行、巴克莱银行等多家机构,阵容非常豪华。 由于以燕麦奶起

    06-21

  • 字节跳动刚刚投资了虚拟女生

    字节跳动刚刚投资了虚拟女生

    ,今年首笔虚拟人融资已经出炉。 投资界获悉,杭州李未科技有限公司显示股东变更,新增字节跳动关联公司北京量子跃动科技有限公司。 今日,该公司正式确认本轮为李未首轮融资,字节跳动独家投资。 李未,这个有些陌生的名字,正是虚拟的女生。 她是由负责人茹忆创建的,前阿里

    06-18

  • 达达集团被纳入MSCI ACWI全球指数

    达达集团被纳入MSCI ACWI全球指数

    达达集团被纳入MSCI ACWI全球指数 5月份,国际指数编制公司MSCI(摩根士丹利资本国际)公布了该指数5月份季度调整结果。 其中,达达集团(纳斯达克股票代码:DADA)已被纳入MSCI ACWI全球指数,该指数将于5月27日收盘后生效。 作为全球最具影响力的股票指数,MSCI ACWI全球指

    06-17

  • 三叶草生物制药完成2.3亿美元C轮融资,高瓴创投、淡马锡共同领投

    三叶草生物制药完成2.3亿美元C轮融资,高瓴创投、淡马锡共同领投

    投资界(ID:pedaily)2月23日消息,专注于为全球严重疾病开发创新生物疗法和疫苗全球临床阶段生物制药公司三叶草生物制药股份有限公司(以下简称“三叶草生物”)宣布完成2.3亿美元C轮融资并获得超募。 本轮融资由高瓴创投、淡马锡联合领投,海松资本、奥博资本跟投,原股东

    06-18

  • 地球上最疯狂的独角兽,SpaceX估值8000亿

    地球上最疯狂的独角兽,SpaceX估值8000亿

    又一超级独角兽诞生。 本周,据美国证券交易所委员文件显示,马斯克运营的SpaceX刚刚完成新一轮17.2亿美元融资,估值高达1亿美元(约合人民币1亿元)。 由此,SpaceX成为全球第三大独角兽公司,仅次于字节跳动和蚂蚁集团。 SpaceX无疑是狂人和马斯克创造的又一个传奇。 这家他

    06-18

  • 【全球财经24小时】2023年8月7日投融资事件汇总及明细

    【全球财经24小时】2023年8月7日投融资事件汇总及明细

    今日全球市场共发生21起投资披露事件,其中境内20起,境外1起。 其中,国内先进制造业11例,医疗健康行业3例,体育产业1例,企业服务业1例,地方生活行业2例,医疗健康行业2例。 电子商务。 ,国外体育行业1例。 国内事件 1、腿老大获万元天使轮融资 腿老大是国民潮流零食品牌

    06-17

  • 阿里云创新中心系列白皮书之一的《2022年中国机器人产业图谱及云上发展研究报告》

    阿里云创新中心系列白皮书之一的《2022年中国机器人产业图谱及云上发展研究报告》

    机器人被誉为“制造业皇冠上的明珠”。 其研发、制造和应用是一个国家技术创新和高端制造水平的重要标志。 2000年之前,机器人感知能力较弱,主要通过预设的重复机械动作实现特定场景下的人工替代; 21世纪,随着传感器的大规模应用和多传感器信息融合技术的发展,机器人逐渐

    06-17

  • 海康威视:2020年净利润同比增长7.82%,拟每10块海康威视披露年报支付8元

    海康威视:2020年净利润同比增长7.82%,拟每10块海康威视披露年报支付8元

    公司全年实现营业总收入3亿元,比上年同期增长10.14%;实现净利润8600万元,较上年同期增长7.82%。 公司全年整体毛利率为46.53%,较上年同期上升0.54个百分点。 该公司计划报价8元10件。 今年一季度,公司实现营业收入8800万元,同比增长48.36%;净利润21.69亿元,同比增长44

    06-18

  • 苹果iOS 14.5最强大的更新功能就是它!

    苹果iOS 14.5最强大的更新功能就是它!

    都说互联网没有记忆,因为当热点过去后,它们就变成了灰尘。 但互联网也有记忆。 它记录了你所有的痕迹。 只需一行,您就可以找到有关您的一切。 这些所谓的“痕迹”就是您的个人数据,可以包括您的浏览习惯、偏好、停留时长、个人移动轨迹、位置信息,甚至身份信息、图片等更

    06-21

  • 走过半导体巨头孤独的世纪

    走过半导体巨头孤独的世纪

    在半导体行业的发展过程中,不少企业经历了兼并、收购、重组等变革。 因此,一些历史悠久的公司可能不再独立存在,而是成为其他大公司的附属公司。 部分。 与此同时,新的半导体公司不断涌现,未来可能成为行业领导者。 01 从制表机到世界名厂:“人才”IBM IBM的历史可以追

    06-17

  • 一家俄罗斯集团已开始在加里宁格勒建设一座 1.3GW 垂直一体化太阳能发电厂

    一家俄罗斯集团已开始在加里宁格勒建设一座 1.3GW 垂直一体化太阳能发电厂

    Unigreen Energy 是俄罗斯 Ream Management 的子公司,该公司持有俄罗斯光伏组件制造商 Hevel Solar 的控股权。 Unigreen Energy 已开始在位于波兰和立陶宛之间的俄罗斯飞地加里宁格勒建设垂直一体化太阳能组件发电厂。 “该发电厂的 n 型硅片产能为 1.3GW,太阳能电池产能为

    06-08

  • 小医物联获2000万元战略投资,海尔机构领投

    小医物联获2000万元战略投资,海尔机构领投

    据投资界1月9日消息,新三板公司小医物联公告称,公司拟发行不超过1万股股票价格为16元/股。 ,筹集不超过1万元。 海尔集团旗下青岛海尔科技投资有限公司参与新股认购。   小蚁物联网表示,本次募集资金将用于:1、产能扩张; 2、产品研发; 3、团队建设; 4. 营销。   

    06-18