首页 > 科技未来 > 内容

大模型是不是有点太多了？

发布于：2024-06-18 编辑：匿名来源：网络

上个月，AI行业爆发了一场“动物大战”。

一方面是Meta推出的Llama，由于其开源特性一直深受开发者社区的欢迎。

在认真研究Llama论文和源代码后，NEC（日本电气）迅速“自主开发”了日语版ChatGPT，帮助日本解决了AI卡顿问题。

另一边是一个名为Falcon的大型模型。

今年5月，Falcon-40B问世，击败Llama登上“开源LLM（大语言模型）排行榜”榜首。

该榜单由开源模型社区Hugging Face制作，提供了一套衡量LLM能力的标准并对其进行排名。

排行榜基本都是Llama和Falcon轮流排名。

《Llama 2》推出后，Llama家族卷土重来；但9月初，Falcon推出B版本，再次取得了更高的排名。

Falcon以68.74分击败Llama 2。

有趣的是，“猎鹰”的开发商并不是一家科技公司，而是位于阿联酋首都阿布扎比的科技创新研究所。

人士政府表示，“我们参与这场游戏是为了颠覆核心玩家”[4]。

B版本发布次日，阿联酋人工智能部长奥马尔被《时代周刊》评选为“人工智能领域最具影响力人物”；与这张中东面孔一起入选的还有“AI教父”Hinton和OpenAI。

奥特曼、李彦宏。

如今，AI领域早已进入“示范”阶段：各国和有一定财力的企业都或多或少有打造“XX中国版ChatGPT”的计划。

仅在海湾国家的圈子里，玩家就不止一个——8月份，沙特刚刚帮助国内大学购买了多件H用于培养LLM。

金沙江创投的朱啸虎曾在朋友圈抱怨：“当年我看不起（互联网上）商业模式创新，认为没有任何壁垒：几百个团队的战争，几百辆汽车的战争，一场百播之战；没想到，大规模的硬科技模型创业，还是一场百模具之战……”承诺的高难度硬科技，怎么一个模具就能在一个国家实现？每亩产量10万公斤？ 1. 变形金刚吞噬世界。

美国初创企业、中国科技巨头和中东石油大亨能够追求大模型，这一切都归功于那篇著名论文：《Attention Is All You Need》。

在这篇论文中，八位谷歌计算机科学家向全世界公开了 Transformer 算法。

这篇论文目前是人工智能历史上被引用次数第三多的论文。

Transformer的出现拉动了这一轮人工智能热潮的导火索。

无论现在的大型车型是什么国籍，包括惊世骇俗的GPT系列，它们都站在Transformer的肩膀上。

在此之前，“教机器阅读”是一个公认的学术问题。

与图像识别不同，人类在阅读文本时，不仅会关注当前看到的单词和句子，还会根据上下文进行理解。

比如“Transformer”这个词，其实可以翻译为“变形金刚”，但本文的读者肯定不会这样理解，因为大家都知道，这不是一篇关于好莱坞电影的文章。

然而，早年神经网络的输入是相互独立的，不具备理解大段文本甚至整篇文章的能力，因此存在将“open water room”翻译成“开放式水房”。

直到 2000 年，曾在 Google 工作、后来跳槽到 OpenAI 的计算机科学家 Ilya Sutskever 才率先拿出了成果。

他使用循环神经网络（RNN）来处理自然语言，很快使谷歌翻译的性能与竞争产品有所不同。

RNN提出了“循环设计”，让每个神经元既接受当前时刻的输入信息，也接受上一时刻的输入信息，从而使神经网络具有“组合上下文”的能力。

循环神经网络RNN的出现点燃了学术界的研究热情，Transformer论文的作者Noam Shazeer也一度对其痴迷。

然而，开发人员很快意识到 RNN 有一个严重缺陷：该算法使用顺序计算。

虽然可以解决上下文问题，但运行效率不高，且难以处理大量参数。

RNN 的繁琐设计很快让 Shazer 感到厌烦。

因此，从今年年初开始，Shazer 和 7 位同事就开始开发 RNN 的替代品，成果就是 Transformer[8]。

与RNN相比，Transformer有两个变化：首先，它使用位置编码来代替RNN的循环设计，从而实现并行计算。

这一改变极大地提高了 Transformer 的训练效率，使其能够处理大型任务。

数据推动AI进入大模型时代；二是进一步强化情境能力。

随着Transformer一口气解决了很多缺陷，它逐渐发展成为NLP（自然语言处理）的解决方案。

有一种似曾相识的感觉，“Transformer不是天生的，NLP就像长夜”。

就连Ilya也放弃了自己亲自推上神坛的RNN，转投Transformer。

换句话说，Transformer是当今所有大型模型的始祖，因为他将大型模型从一个理论研究问题变成了一个纯粹的工程问题。

LLM技术发展树图，灰色树根为Transformer[9] 2016年，OpenAI基于Transformer开发了GPT-2，一度令学术界惊叹。

作为回应，谷歌迅速推出了更强大的人工智能，名为 Meena。

与GPT-2相比，Meena在底层算法上没有任何创新。

它仅比 GPT-2 多出 8.5 倍的训练参数和 14 倍的计算能力。

《Transformer》论文的作者谢泽尔对“一堆暴力”感到非常震惊，以至于当场写下了备忘录《米娜吞噬世界》。

Transformer的出现，大大减缓了学术界底层算法的创新。

数据工程、算力规模、模型架构等工程要素日益成为人工智能竞赛胜负的重要因素。

任何有一定技术能力的科技公司都可以打造出大型模型。

因此，计算机科学家吴恩达在斯坦福大学演讲时，提到了一个观点：“AI是工具的集合，包括监督学习、无监督学习、强化学习，以及现在的生成式人工智能。

所有这些都是通用的”技术，类似于电力、互联网等其他通用技术[10]”虽然OpenAI仍是LLM的风向标，但半导体分析机构Semi Analysis认为GPT-4的竞争力来自于工程解决方案——如果是开源的话，任何竞争对手都可以很快重新出现。