首页 > 技术迭代 > 内容

大语言模型评估是怎么搞砸的？我们和业内人士聊了一下午

发布于：2024-06-28 编辑：匿名来源：网络

上海人工智能研究实验室（以下简称上海AI实验室）位于徐汇区云锦路，共有11栋建筑。

这里有一个GPU，也是这个城市人工智能领域的中心。

这是上海要抢占的新“黄河路”。

这是今年6月世界人工智能大会的分会场之一。

届时，来自世界各地的30余位大型模特齐聚上海。

现在中国的大型车型数量已经超过10万辆。

“你看那边，看到那家麦当劳了吗？前面那些黑色的建筑就是上海人工智能实验室。

”从太古里前滩的立交桥上依稀可以看到，高帆粗略地指了指。

来源：小红书用户@APP 高帆是爱丁堡大学AI领域的研究生。

他今年即将毕业，年底将回国。

他是相对较新的大型模型评估基准CoT Hub的核心构建者之一。

CoT Hub项目的发起人是符尧。

此前，符尧的另一部引人注目的作品是大规模汉语水平标志性评估基准C-Eval。

OpenAI已经追逐月球九天了，但它也一直在五大洋寻找海龟。

在思考下一代GPT的同时，它正在利用GPT Store来吃掉用户。

Meta对Llama 2（不到7亿用户）商业化的政策再次冲击了Llama 2国内市场之前训练过的大型模型。

高悬的达摩克利斯之剑还不止一把，吊足了观众的胃口，也迫切为国内大模特选手们架起一根救命稻草。

“外面看起来很宏伟，但内部其实很简单。

”高帆说的是上海AI实验室的十几栋大楼，听起来和现在国内的大型模型社区形成了鲜明的对比。

这句话的背景是，在一些知名的大型模型评估基准榜单上，GPT-3.5、Claude-2甚至GPT-4都可能掉到第10名之外，而一些不知名的名字却轮番跻身前列。

列表。

夺取王位。

“刷排名是我们的坏习惯。

”去年11月，XVERSE科技创始人姚兴直言。

这也是我这次会见高凡的目的。

我想请教一位接近C-Eval并设计了评估基准的人对此事的建议。

首先，这个东西是如何测试的？ “C-Eval已经被毁掉很久了。

” “我的意思是，评估基准都是你做的，为什么还要花钱自己去测试呢？”评估有两种，自测或提交，“C-Eval，大部分都是后者。

”Govan 说道。

包括爱丁堡大学在内，英国一所大学的 GPU 存量大致在张的范围内，美国多，沙特阿拉伯多，中国少，如果只考虑无意识运行而不进行工程优化，一张卡、一个任务集可能要跑一天，这个计算成本和时间成本都很高。

通常，这些学术评估基准团队资金有限，只能依靠大型模型公司自己拿论文跑测试，然后将分数汇总给评估基准团队。

如果自己提交的话，排名的变数就会更多。

“符尧很敏锐，这是一件用爱发电的事情，但结果是C-Eval败得很惨。

”高帆说。

符尧是高万在爱丁堡大学的高年级学生。

他并不认识扶摇，C-Eval是什么时候开始建设的，但高凡知道C-Eval很早就做的，甚至是在Chatgpt出现之前就开始的一个项目，所以在今年年初，很多的初衷是要做中文水平评估，当所有的评估基准还在做英文数据集简单粗暴的翻译工作时，C-Eval 是第一个从头开始构建自己的数据集，花费了大量的时间和人工标注堆积数据集，然后一下子就成为了中国大型模型的标志性评价标杆。

C-Eval 对自己的声明来源：C-Eval C-Eval 很快成为这波大机型热潮中最受广泛认可的榜单之一。

而很快，它也是第一个被消灭的名单。

在6月份的C-Eval排行榜上，ChatGLM 2超越GPT-4排名第一，商汤科技的RiRixin紧随其后，位居第三。

7月，APUS天眼大模型和融联云赤兔大模型跟随排名第二的GPT-4进入前六名。

一个月后，C-Eval 榜单第二名被成立仅两个月的初创公司 Symbiosis Matrix 取代。

又过了一个月，这份榜单上超越GPT-4的国产大型机型突然增加到了8款。

从10月开始，GPT-4在C-Eval上的平均得分跌出了前十。

几乎每一款国产大型车型的上市都会以抢眼的C-Eval成绩开始。

几个月前见到致远研究院的林永华时，她直言，几个权威排名被刷得太厉害，已经失去了参考价值，其中就提到了C-Eval。

百川智能在8月份就放弃了C-Eval，因为当时如果不作弊，百川模型的分数也只有50多分。

GPT-4只能获得70分的评估基准。

50分对于一家创业还不到半年的初创公司来说已经是可喜可贺了。

但如此“低分”连前10都进不了，国产车型排行榜上也排不上。

队伍里排得很远。

“但我们不愿意作弊。

”百川智能内部人士表示。

这种“作弊”高分可以通过刷题来实现，大量达到C-Eval榜首的大模型都是这样做的。

“这几乎是一个公开的秘密，”戈万说。

很早就有人注意到了这一点。

《Rethinking Benchmark and Contamination for Language Models with Rephrased Samples》的一篇论文表明，一些轻微的数据泄漏（训练集和测试集之间的数据重叠）可能会导致评估结果显着改善。

当数据泄露发生时，大型模型将过度适应它所记住的训练数据。

这会导致小参数模型优于大参数模型，也会导致较差的模型比好的模型得分更高，最终导致模型性能的评估不可靠。

这种重叠不仅仅出现在单词和句子中。

也就是说，如果将一些问题中的原词替换成原意并投入训练，这种数据污染仍然存在。

这可能会导致一定程度的过度拟合，即模型在训练数据上学习了太多细节，以至于它开始记住特定的数据点，而不是学习数据背后的一般规则或模式。

致远研究院内部研究表明，这种刷分造成的过拟合现象可能会影响模型本身的“智能”。

这种担忧很可能是正确的。

去年11月，中国人民大学和伊利诺伊大学厄巴纳-香槟分校的联合团队选取了当时市场上流行的几个大型模型和控制变量来测试其在完成试题后的性能变化。

结果是，在泄露数据上训练的大型语言模型在文本生成和代码合成任务中的性能都有不同程度的下降。

OpenLLaMA-3B 和 LLaMA-2-7B 在 XSum 任务上的 ROUGE-L 分数分别从 0.19 和 0.25 降低。

即使使用Alpaca和CodeAlpaca数据集再次对模型进行微调，这种能力的下降也无法逆转。

写题就像是从NLP和CV时代传承下来的肌肉记忆。

在最近推出的新车型上，创始人站出来谈论了得分问题。

他表示，团队训练了“应试教育”版本来提高积分。

分数超过了GPT-4。

技术人员也告诉他——积分够了。

好吧，如果还不够，你还可以再拉高一点。

当然，创始人是开玩笑地说这番话的。

但在介绍模型时，第一句话仍然是“该模型在各种列表上都是 SOTA”，他自己也有点傻眼。

图片来源：LessWrong 《‘做题’的问题能一路走下去吗？》 “如果我们能够设计一个足够接近真实情况的数据集，”高凡说。

但这意味着一个超级大的题库，比C-Eval大得多。

C-Eval 已经包含了 10 多个任务，而 BBH 则有多个任务。

这也是为什么C-Eval大多是由大型模型公司自己测试并提交的——能否完全运行这样的测试集是一个门槛。

“而且，测试基准的影响因素远不止做题那么简单。

”脆弱评论“如果不是在统一标准下进行测试，你会发现几乎有无穷多个变量——温度、你的解码策略、Prompt（提示词）等等……每个列表都会有标准建议来实现，但是它不一定是你的模型的最佳形式。

”高帆举了一个例子。

例如，做选择题时，有些测试方法是将题库中的答案转成字母序列（A/B/C/D或多项选择），然后将生成的字母序列与正确的字母序列进行比较顺序。

整个系列答案的正确性。

还有直接测试“答案是”后面的Token的方法。

例如，如果正确答案是A，只要A的概率大于B和C，你就会被认为正确回答了问题——即使它实际上不知道为什么选择A。

。

“光解码策略就有n种方法，除了衡量ABCD的概率外，还有衡量不带括号的概率——有很多偏好，其实相当复杂。

” Anthropic 的一篇技术论文也说了同样的话。

Claude 的团队表示，他们对简单的格式更改很敏感，例如将选项从 (A) 更改为 (1)，或者在选项和答案之间添加额外的空格，这可能会导致评估准确度波动约 5%。

。

但退一步来说，如果所有模型都按照一种方法来测量是可以的。

这是每个评估基准都会遇到的相同问题。

这也是HuggingFace如此受推崇的原因之一。

他们有足够的底牌，并提供全自动的模型能力评估框架。

这意味着，无论模型经历了多么“棘手”的训练，至少在评估过程中它们都可以被放在同一水平上。

“但 HuggingFace 上的评论也不是从来没有发生过事故。

”我记得有一次这样的“事故”。

当时的背景是Falcon的分数非常高，而Llama1-65B在Open LLM Leaderboard（HuggingFace的自动化模型排行榜）上的MMLU分数异常低。

最终发现原因是自动化评估框架存在bug。

该错误很快被修复，但仍然引起了社区的一些讨论。

来源：XCoT Hub 本身也是本次事件的主角之一。

正是他们在 MMLU 上发起了对 Llama1-65B 性能的另一次测试。

自动化脚本的一个bug导致模型在MMLU上的准确率下降了20%，这意味着刷分下降了20分——要知道GPT-4在MMLU上丢了20分之后，即使是GPT-3.5涡轮增压没有什么好。

这次测试事件或许反映出评估本身有多么脆弱。

“但归根结底，这是目前最好的方式。

CoT Hub未来也可能更新为全自动版本。

”高凡说。

“不过，最大的变数其实是Prompt。

”风很大，我们就躲到对面的一家书店里。

最大的问题是，前滩太古里的Prompt茑屋书店是上海的第二家店，开业也有两年多了。

如今，大多数畅销书都被放置在移动线上的黄金位置，现在有很多像“ChatGPT”和“AIGC”这样的词。

第一批活跃的传教士已经谈论了新时代，但对于普通人来说，什么都还没有到来。

几周前，我遇到了一本畅销书的作者，他对年度 AI 一代最确定的预测是——AI 影响者。

听起来不可靠而且无聊。

如果说写书、卖课程可以算是新时代的一种布道、赚第一笔钱，那么模型评测就是另一种。

这些名单就像是西方归来的淘金者的第一批承销商。

“我刚才提到的提示是什么意思？” “提示词的灵敏度非常高。

”高帆说道：“什么意思？比如克劳德系列的模型，我只是改变了Prompt，评价分数中的扰动就会是10%。

”如何使用Prompt，有很多“陷阱”在测试过程中，很多都是工程问题。

比如MMLU——你可以把它理解为选择题的题库，然后你需要知道测试的模型给出了什么答案。

在这个答案循环过程中，大多数评估基准只做字符串匹配，但这种方法实际上非常不稳定，考虑到评估结果提取位置的准确性，甚至有点“灾难性”。

提取字符串的逻辑在人脑看来非常简单，但这只能说明人脑有多么聪明。

“如果模型的答案是‘选择 b’，那么可以很容易地提取‘b’字符。

但是如果模型的答案是‘不应该选择 C，应该选择 b’，那么答案就是‘b’，” c'还是'b c'？”这就要求模型符合标准答案。

例如，在模型的 Few-Shot 示例中，它是用“Answer:”进行训练的。

这样看来，“Answer:”字符串后面的内容应该就是模型想要的答案。

不过高凡和团队成员的测试结果是，这种方法对于GPT家族的模型效果很好，因为GPT不喜欢废话。

但对于Claude或Llama家族模型，你可能会得到一个不合理的答案，比如“这道题选b是错误的，你应该选c”。

“即使你告诉它‘别说别的’，也没用。

这时候，提取器就会失败——只有 GPT-4 可以提取接近人类理解的答案，但不会在本次测试中进行测试。

”因为成本，这是不可能的。

”为了解决模型不乱说话的问题，需要一些提示技巧，而经过测试，CoT Hub发现Claude优化前后可能会出现10%的扰动，这在整个大型模型评估过程中几乎是一个不可控的风险。

公平地说，理论上在评估大型模型时应该遵循相同的答案提取规则。

开源社区就是这样做的。

为了平等对待所有模型，开源社区默认只有一条提取规则，例如“Answer:”。

但这却成了一件矛盾的事情。

评估基准是否应该坚持使用相同的提取器和提示词组合来测试所有模型以确保公平性，还是应该衡量模型的潜力？前者由于变量太多，似乎缺乏横向比较的意义。

如果是后者，Prompt如何挤出大模型的性能上限，还需要更详细的研究。

图片来源：arXiv “寻找 Prompt 的最优解，可以说我们当时把大部分精力都花在了这上面。

”这是一个越来越受到关注的研究方向。

平庸的Prompt本身就有无法调动大型模型能力上限的可能性。

寻找并验证Prompt的最优解还有很长的路要走。

严格来说，CoT Hub目前有4人，但每个阶段的参与者都不同。

起初，符尧和他带领的几个本科生开始编写基本的代码。

后来几位本科生因为其他事情离开了，高帆也加入了。

大语言模型评估是怎么搞砸的？我们和业内人士聊了一下午

据高凡描述，这是一个比较宽松的项目。

我每天写两到三个小时的代码，每周开一次会议。

据高帆说，“反正我就是零碎做。

”这个项目2月份启动，5月份成型，10月份在GitHub上上市，现在已经有不止一颗星了。

每一项研究都有其历史背景。

在 CoT Hub 之前，大多数大型模型评估都是使用零射击和单轮对话完成的，即在一次对话动作中提出问题并获得答案。

然而，这种简单的方法很容易有针对性地进行训练，并且在大型模型的更高级性能评估方面缺乏区分度。

CoT Hub 没有创建新的数据集。

它只是带来了市场上高质量的数据集，打磨了适当的提示，将原来的零射击方法转换为多轮对话，并检验了CoT能力。

当任务变得复杂时，模型的性能进一步划分等级。

CoT Hub 团队当时得出的结论是，开源的 Llama-65B 模型的性能非常接近 code-davinci-，即 GPT-3.5 的基本模型。

但即便如此，开源模式与封闭模式之间的差距仍然巨大。

在真正具有挑战性的数据集上（例如Big-Bench-Hard），小参数模型和大参数模型之间的差距是惊人的，而不是像一些文章或迂腐论文所说的那样，前者可以“与大参数竞争”与小。

” “大参数模型的性能可以重现，甚至赶上了ChatGPT。

看来‘幻觉’这个东西不仅出现在模型上，也出现在列表上。

但后者并不是幻觉的反映人类大脑的。

最终我们要测试的是超越人类的智能。

可以测试吗？生活在二次元世界的平国的卑微居民“方先生”有一天，遇见了从三维国度来传福音的“球”先生。

“球”先生很容易就能看到“方”先生的身体。

在里面，甚至穿过它，就像用手指从上面戳一张纸一样。

但这一切后者却无法理解。

图片来源：知乎@李思这是我对大模型评估最大的疑问：如果大模型的期望是走向AGI，那么我们应该如何用人类设计的评估标准来衡量或描述一个模型？智力比人类高？高帆提供了一个想法：这件事可能可以理解为如何找到一种方法来帮助人类监督大型模型的表现，并使这种监督具有足够的可扩展性。

“例如，我们希望一个具有小学教育程度的数据标注员能够判断模型在 MMLU 上的表现。

如果这是真的，那么也许我们可以将其扩展到人类极限，看看超出人类极限的测试结果人类的极限。

”高凡说道。

他向我展示了一个非常有趣的作品——准确地说是一个演示——关于如何使非程序员能够像程序员一样使用一些特殊的工具来标记数据集。

OpenAI 在 12 月发表的一篇关于 Superalignment 的论文中，演示了一种使用 GPT-2 监督 GPT-4 的方法。

这和前面的“弱”监管和“强”监管的例子是一样的。

逻辑。

这个问题属于可扩展监督的范畴——去年 7 月 OpenAI 首次宣布其超级对齐项目时提到过——关于如何监督一个在特定领域优于人类的系统，并寻找可以大规模扩展的方法。

扩大规模的可能性。

监督扩展是对齐领域的一个分支。

有一些研究人员正在推动这一领域的研究。

其中一位是纽约大学的教授。

“他还担任 Anthropic 的导师。

”现在领导 OpenAI 的“超级对齐”部门的是 Ilya，但他在一个月前的 OpenAI 内部叛变后陷入了尴尬的境地，很少在 X 上更新消息。

他“消失”前的最后一份工作是 OpenAI 关于“超级对齐”的论文”。

论文提到了另一个超越人类探索的大模型：辩论。

高帆最关心的就是这个。

“但是——辩论？” “人类有两条线，一条是形式语言，也就是逻辑范畴。

这条线一直延伸到今天，就是计算机语言。

与它平行的，还有一条非形式语言的线。

——那些关于语用学、语义学和修辞学的东西——现在的发展与辩论艺术有关，比如法律。

“辩论能力和说服能力目前在人工智能中还没有定义清晰的能力。

”但既然推理能力可以被明确定义，理论上同样层面的争论应该转移到语言模型上，但目前的研究还太浅薄。

“我记得GPT-4刚发布两个月后就出了一篇论文，论文作者要求一个大语言模型在卖气球的任务中充当买家和卖家，并添加了一个大模型”评论家”充当买家和卖家，双方都提供反馈，气球的价格从20美元起，看看最后会是什么价格。

从实验内容来看，这是对辩论能力的考验从批评者的角度来看，这个实验类似于用GPT-2来监督GPT-4有点像，并且是监督扩展中非常有代表性的路线，这篇论文的作者也是符尧， C-Eval的“鼻祖”下一站是Google的Gemini所遇到的问题，设计师正在尝试的想法，甚至“鼻祖”的工作选择，都说明了一件事：大模型不会停留在这些上。

选择题和最后的列表，真正做大模型的公司都已经这么做了。

有自己的方法。

现在对外披露的评估基准更多地起到了宣传工具的作用（甚至不是ToVC），而在大型模型公司内部，他们往往有更有针对性的评估基准。

一位目前很火的大型模型公司产品经理的朋友表示，这套内部评测基准需要很长时间的调试。

它实际上是一家大型模型公司的核心资产。

，为自己模型的训练和迭代提供方向。

“评估基准一开始是滞后的，后来变成了一个被使用的工具，逐渐泡沫化。

现在泡沫期已经快结束了。

”高帆说。

“最终，用户会用脚投票。

”注：高帆对文中笔名点赞。

站长声明

标签：

上一篇：被遗忘的水货iPhone

下一篇：索尼LinkBuds上手体验：摘下耳机是新世纪的帽子尖

券商PE力鼎资本：创业成功源于激情，摒弃“唯上市论”

6月28日，天浩节能科技股份有限公司在创业板挂牌，发行价8.18元/股，开盘上涨27.75%至10.45元。天浩节能背后，力鼎资本旗下的上海力鼎、上海金钰、北京力鼎、广州力鼎等基金合计持有天浩节能16.25%的股份。自探路者上市以来，力鼎资本再次成为行业焦点。　　领鼎资本成立于

06-18
慕恩生物获数千万人民币B轮融资，越秀产业基金投资

据投资界2月18日消息，微生物资源服务商“慕恩生物”获数千万人民币系列融资B融资，由越秀产业基金投资。据悉，本轮筹集的资金将用于慕恩生物微生态药物的研发以及微生物菌剂的开发和销售。慕恩生物科技成立于2007年，是一家专注于微生物资源商业化的中国创新型生物科技公

06-17
长沙开福区母基金现招募GP

湖南财新金融控股集团有限公司旗下湖南财新产业基金管理有限公司（简称“财新产业基金”）和长沙开福城投集团有限公司（简称“财新产业基金”、“开福城投集团”）与湖南金霞发展集团有限公司（“金霞发展集团”）共同发起设立长沙市开福区产业发展基金总规模30亿元的基金合伙

06-17
一站式儿童成长中心“七巧果”宣布获得2亿元融资，五粮资本投资

1月13日投资界消息，1月13日消息，一站式儿童成长陪伴中心七巧果宣布获得2亿元融资。由Infinite Capital领投的2亿元融资，资金将用于加速公司业务发展、扩大门店数量和区域布局。　　七巧果是深圳本土的少儿教育综合体，总经营面积超过14万平方米，即将开业面积超过10万平方

06-18
复星贾旭：复星是怎样做医疗并购的？

复星贾旭：复星如何进行医疗并购？ 2019年6月27日，由宁波市人民政府主办，清科集团、宁波市金融办、宁波国家高新区管委会承办的中国股权投资论坛@宁波在宁波洲际酒店隆重举行。复星医药投资总监在会上分享了复星医药的投资策略。复星医药投资总监贾旭　　复星集团的医药投

06-18
绿地集团设立100亿碳中和科技投资基金

投资界（ID：pedaily）消息，6月30日，据绿地集团消息，集团旗下贵州绿金低碳交易中心（以下简称“绿交所”） “绿地”隆重亮相，同时发布绿色低碳发展战略，并展示了首款具有国家碳中和理念的公益服务产品——“零碳效益”，并签署了战略合作协议。据介绍，新加坡碳交易所（

06-17
前火币集团CFO李书沸正式加盟黑洞投资

投资界消息，近日，前火币集团CFO、董事会秘书兼国际业务副总裁Chris Lee李书沸已辞职，以合伙人身份正式加入黑洞投资，并担任黑洞投资在总裁的立场上。李李书沸先生在国际商务、银行、投资、上市公司运营和资本市场方面拥有十七年经验，也是一位金融科技专家。在加入黑洞投

06-17
【投资日报】去哪儿赴美IPO，视频网站洗牌在即

【资本事件】　途家网首轮融资完成鼎晖投资、光速创投联合投资　　短租在线预订网站途家今日宣布获得光速、鼎晖、携程、HomeAway联合投资。具体金额尚未透露。途家网CEO罗军表示，首轮融资将主要用于全国业务拓展，同时还将加大研发、营销、产品、服务等方面的投入。　　腾

06-17
无线位置传感与网络芯片公司“共默罗”获数千万种子轮投资

投资界（ID：pedaily）2月28日消息，近日，射频与位置传感芯片公司共孔科技（上海）有限公司共孔网（以下简称“共孔网”）完成凯旋创投、启诚致远投资的数千万种子轮融资。据悉，本轮融资将主要用于芯片产品研发和算法技术进步。共孔网成立于2016年10月，公司名称取自著名统

06-18
科创板上市市委终止京东数科科创板上市申请

科创板上市委员会终止京东数科科技控股有限公司科创板上市申请发行人撤回发行上市申请或保荐人撤回保荐。

06-18
大学生这个贫困县，在宁波做起了拉面生意，他去了80多家机构，都被忽视了，现在年薪900万

韩军说，如果没有兰州拉面，我可能上不了大学。韩军是宁波西北梦想电子商务有限公司旗下品牌伊穆之家创始人的品牌。你可能没有听说过这家初创公司，但全国的兰州拉面店都知道清真餐饮服务品牌伊穆之家。拉面经济年收入过亿，贫困孩子靠拉面上大学。韩军出生于2001年，他的

06-18
晶方科技：15年打造晶圆级芯片封装全球巨头

晶方公众号、新华网简介：晶方科技携全球领先的晶圆级芯片成功晋级苏州工业开发区尺寸封装技术信息化局组织的“苏州年度集成电路企业20强”。近年来，苏州围绕“强链、补链、长链”需求，全面加强创新驱动。日益成为产业链较为完整、企业集聚程度较高、人才储备和技术发

06-06