券商PE力鼎资本:创业成功源于激情,摒弃“唯上市论”
06-18
上海人工智能研究实验室(以下简称上海AI实验室)位于徐汇区云锦路,共有11栋建筑。
这里有一个GPU,也是这个城市人工智能领域的中心。
这是上海要抢占的新“黄河路”。
这是今年6月世界人工智能大会的分会场之一。
届时,来自世界各地的30余位大型模特齐聚上海。
现在中国的大型车型数量已经超过10万辆。
“你看那边,看到那家麦当劳了吗?前面那些黑色的建筑就是上海人工智能实验室。
”从太古里前滩的立交桥上依稀可以看到,高帆粗略地指了指。
来源:小红书用户@APP 高帆是爱丁堡大学AI领域的研究生。
他今年即将毕业,年底将回国。
他是相对较新的大型模型评估基准CoT Hub的核心构建者之一。
CoT Hub项目的发起人是符尧。
此前,符尧的另一部引人注目的作品是大规模汉语水平标志性评估基准C-Eval。
OpenAI已经追逐月球九天了,但它也一直在五大洋寻找海龟。
在思考下一代GPT的同时,它正在利用GPT Store来吃掉用户。
Meta对Llama 2(不到7亿用户)商业化的政策再次冲击了Llama 2国内市场之前训练过的大型模型。
高悬的达摩克利斯之剑还不止一把,吊足了观众的胃口,也迫切为国内大模特选手们架起一根救命稻草。
“外面看起来很宏伟,但内部其实很简单。
”高帆说的是上海AI实验室的十几栋大楼,听起来和现在国内的大型模型社区形成了鲜明的对比。
这句话的背景是,在一些知名的大型模型评估基准榜单上,GPT-3.5、Claude-2甚至GPT-4都可能掉到第10名之外,而一些不知名的名字却轮番跻身前列。
列表。
夺取王位。
“刷排名是我们的坏习惯。
”去年11月,XVERSE科技创始人姚兴直言。
这也是我这次会见高凡的目的。
我想请教一位接近C-Eval并设计了评估基准的人对此事的建议。
首先,这个东西是如何测试的? “C-Eval已经被毁掉很久了。
” “我的意思是,评估基准都是你做的,为什么还要花钱自己去测试呢?”评估有两种,自测或提交,“C-Eval,大部分都是后者。
”Govan 说道。
包括爱丁堡大学在内,英国一所大学的 GPU 存量大致在张的范围内,美国多,沙特阿拉伯多,中国少,如果只考虑无意识运行而不进行工程优化,一张卡、一个任务集可能要跑一天,这个计算成本和时间成本都很高。
通常,这些学术评估基准团队资金有限,只能依靠大型模型公司自己拿论文跑测试,然后将分数汇总给评估基准团队。
如果自己提交的话,排名的变数就会更多。
“符尧很敏锐,这是一件用爱发电的事情,但结果是C-Eval败得很惨。
”高帆说。
符尧是高万在爱丁堡大学的高年级学生。
他并不认识扶摇,C-Eval是什么时候开始建设的,但高凡知道C-Eval很早就做的,甚至是在Chatgpt出现之前就开始的一个项目,所以在今年年初,很多的初衷是要做中文水平评估,当所有的评估基准还在做英文数据集简单粗暴的翻译工作时,C-Eval 是第一个从头开始构建自己的数据集,花费了大量的时间和人工标注堆积数据集,然后一下子就成为了中国大型模型的标志性评价标杆。
C-Eval 对自己的声明 来源:C-Eval C-Eval 很快成为这波大机型热潮中最受广泛认可的榜单之一。
而很快,它也是第一个被消灭的名单。
在6月份的C-Eval排行榜上,ChatGLM 2超越GPT-4排名第一,商汤科技的RiRixin紧随其后,位居第三。
7月,APUS天眼大模型和融联云赤兔大模型跟随排名第二的GPT-4进入前六名。
一个月后,C-Eval 榜单第二名被成立仅两个月的初创公司 Symbiosis Matrix 取代。
又过了一个月,这份榜单上超越GPT-4的国产大型机型突然增加到了8款。
从10月开始,GPT-4在C-Eval上的平均得分跌出了前十。
几乎每一款国产大型车型的上市都会以抢眼的C-Eval成绩开始。
几个月前见到致远研究院的林永华时,她直言,几个权威排名被刷得太厉害,已经失去了参考价值,其中就提到了C-Eval。
百川智能在8月份就放弃了C-Eval,因为当时如果不作弊,百川模型的分数也只有50多分。
GPT-4只能获得70分的评估基准。
50分对于一家创业还不到半年的初创公司来说已经是可喜可贺了。
但如此“低分”连前10都进不了,国产车型排行榜上也排不上。
队伍里排得很远。
“但我们不愿意作弊。
”百川智能内部人士表示。
这种“作弊”高分可以通过刷题来实现,大量达到C-Eval榜首的大模型都是这样做的。
“这几乎是一个公开的秘密,”戈万说。
很早就有人注意到了这一点。
《Rethinking Benchmark and Contamination for Language Models with Rephrased Samples》 的一篇论文表明,一些轻微的数据泄漏(训练集和测试集之间的数据重叠)可能会导致评估结果显着改善。
当数据泄露发生时,大型模型将过度适应它所记住的训练数据。
这会导致小参数模型优于大参数模型,也会导致较差的模型比好的模型得分更高,最终导致模型性能的评估不可靠。
这种重叠不仅仅出现在单词和句子中。
也就是说,如果将一些问题中的原词替换成原意并投入训练,这种数据污染仍然存在。
这可能会导致一定程度的过度拟合,即模型在训练数据上学习了太多细节,以至于它开始记住特定的数据点,而不是学习数据背后的一般规则或模式。
致远研究院内部研究表明,这种刷分造成的过拟合现象可能会影响模型本身的“智能”。
这种担忧很可能是正确的。
去年11月,中国人民大学和伊利诺伊大学厄巴纳-香槟分校的联合团队选取了当时市场上流行的几个大型模型和控制变量来测试其在完成试题后的性能变化。
结果是,在泄露数据上训练的大型语言模型在文本生成和代码合成任务中的性能都有不同程度的下降。
OpenLLaMA-3B 和 LLaMA-2-7B 在 XSum 任务上的 ROUGE-L 分数分别从 0.19 和 0.25 降低。
即使使用Alpaca和CodeAlpaca数据集再次对模型进行微调,这种能力的下降也无法逆转。
写题就像是从NLP和CV时代传承下来的肌肉记忆。
在最近推出的新车型上,创始人站出来谈论了得分问题。
他表示,团队训练了“应试教育”版本来提高积分。
分数超过了GPT-4。
技术人员也告诉他——积分够了。
好吧,如果还不够,你还可以再拉高一点。
当然,创始人是开玩笑地说这番话的。
但在介绍模型时,第一句话仍然是“该模型在各种列表上都是 SOTA”,他自己也有点傻眼。
图片来源:LessWrong 《‘做题’的问题能一路走下去吗?》 “如果我们能够设计一个足够接近真实情况的数据集,”高凡说。
但这意味着一个超级大的题库,比C-Eval大得多。
C-Eval 已经包含了 10 多个任务,而 BBH 则有多个任务。
这也是为什么C-Eval大多是由大型模型公司自己测试并提交的——能否完全运行这样的测试集是一个门槛。
“而且,测试基准的影响因素远不止做题那么简单。
”脆弱评论“如果不是在统一标准下进行测试,你会发现几乎有无穷多个变量——温度、你的解码策略、Prompt(提示词)等等……每个列表都会有标准建议来实现,但是它不一定是你的模型的最佳形式。
”高帆举了一个例子。
例如,做选择题时,有些测试方法是将题库中的答案转成字母序列(A/B/C/D或多项选择),然后将生成的字母序列与正确的字母序列进行比较顺序。
整个系列答案的正确性。
还有直接测试“答案是”后面的Token的方法。
例如,如果正确答案是A,只要A的概率大于B和C,你就会被认为正确回答了问题——即使它实际上不知道为什么选择A。
。
“光解码策略就有n种方法,除了衡量ABCD的概率外,还有衡量不带括号的概率——有很多偏好,其实相当复杂。
” Anthropic 的一篇技术论文也说了同样的话。
Claude 的团队表示,他们对简单的格式更改很敏感,例如将选项从 (A) 更改为 (1),或者在选项和答案之间添加额外的空格,这可能会导致评估准确度波动约 5%。
。
但退一步来说,如果所有模型都按照一种方法来测量是可以的。
这是每个评估基准都会遇到的相同问题。
这也是HuggingFace如此受推崇的原因之一。
他们有足够的底牌,并提供全自动的模型能力评估框架。
这意味着,无论模型经历了多么“棘手”的训练,至少在评估过程中它们都可以被放在同一水平上。
“但 HuggingFace 上的评论也不是从来没有发生过事故。
”我记得有一次这样的“事故”。
当时的背景是Falcon的分数非常高,而Llama1-65B在Open LLM Leaderboard(HuggingFace的自动化模型排行榜)上的MMLU分数异常低。
最终发现原因是自动化评估框架存在bug。
该错误很快被修复,但仍然引起了社区的一些讨论。
来源:XCoT Hub 本身也是本次事件的主角之一。
正是他们在 MMLU 上发起了对 Llama1-65B 性能的另一次测试。
自动化脚本的一个bug导致模型在MMLU上的准确率下降了20%,这意味着刷分下降了20分——要知道GPT-4在MMLU上丢了20分之后,即使是GPT-3.5涡轮增压 没有什么好。
这次测试事件或许反映出评估本身有多么脆弱。
“但归根结底,这是目前最好的方式。
CoT Hub未来也可能更新为全自动版本。
”高凡说。
“不过,最大的变数其实是Prompt。
”风很大,我们就躲到对面的一家书店里。
最大的问题是,前滩太古里的Prompt茑屋书店是上海的第二家店,开业也有两年多了。
如今,大多数畅销书都被放置在移动线上的黄金位置,现在有很多像“ChatGPT”和“AIGC”这样的词。
第一批活跃的传教士已经谈论了新时代,但对于普通人来说,什么都还没有到来。
几周前,我遇到了一本畅销书的作者,他对年度 AI 一代最确定的预测是——AI 影响者。
听起来不可靠而且无聊。
如果说写书、卖课程可以算是新时代的一种布道、赚第一笔钱,那么模型评测就是另一种。
这些名单就像是西方归来的淘金者的第一批承销商。
“我刚才提到的提示是什么意思?” “提示词的灵敏度非常高。
”高帆说道:“什么意思?比如克劳德系列的模型,我只是改变了Prompt,评价分数中的扰动就会是10%。
”如何使用Prompt,有很多“陷阱”在测试过程中,很多都是工程问题。
比如MMLU——你可以把它理解为选择题的题库,然后你需要知道测试的模型给出了什么答案。
在这个答案循环过程中,大多数评估基准只做字符串匹配,但这种方法实际上非常不稳定,考虑到评估结果提取位置的准确性,甚至有点“灾难性”。
提取字符串的逻辑在人脑看来非常简单,但这只能说明人脑有多么聪明。
“如果模型的答案是‘选择 b’,那么可以很容易地提取‘b’字符。
但是如果模型的答案是‘不应该选择 C,应该选择 b’,那么答案就是‘b’,” c'还是'b c'?”这就要求模型符合标准答案。
例如,在模型的 Few-Shot 示例中,它是用“Answer:”进行训练的。
这样看来,“Answer:”字符串后面的内容应该就是模型想要的答案。
不过高凡和团队成员的测试结果是,这种方法对于GPT家族的模型效果很好,因为GPT不喜欢废话。
但对于Claude或Llama家族模型,你可能会得到一个不合理的答案,比如“这道题选b是错误的,你应该选c”。
“即使你告诉它‘别说别的’,也没用。
这时候,提取器就会失败——只有 GPT-4 可以提取接近人类理解的答案,但不会在本次测试中进行测试。
”因为成本,这是不可能的。
”为了解决模型不乱说话的问题,需要一些提示技巧,而经过测试,CoT Hub发现Claude优化前后可能会出现10%的扰动,这在整个大型模型评估过程中几乎是一个不可控的风险。
公平地说,理论上在评估大型模型时应该遵循相同的答案提取规则。
开源社区就是这样做的。
为了平等对待所有模型,开源社区默认只有一条提取规则,例如“Answer:”。
但这却成了一件矛盾的事情。
评估基准是否应该坚持使用相同的提取器和提示词组合来测试所有模型以确保公平性,还是应该衡量模型的潜力?前者由于变量太多,似乎缺乏横向比较的意义。
如果是后者,Prompt如何挤出大模型的性能上限,还需要更详细的研究。
图片来源:arXiv “寻找 Prompt 的最优解,可以说我们当时把大部分精力都花在了这上面。
”这是一个越来越受到关注的研究方向。
平庸的Prompt本身就有无法调动大型模型能力上限的可能性。
寻找并验证Prompt的最优解还有很长的路要走。
严格来说,CoT Hub目前有4人,但每个阶段的参与者都不同。
起初,符尧和他带领的几个本科生开始编写基本的代码。
后来几位本科生因为其他事情离开了,高帆也加入了。

据高凡描述,这是一个比较宽松的项目。
我每天写两到三个小时的代码,每周开一次会议。
据高帆说,“反正我就是零碎做。
”这个项目2月份启动,5月份成型,10月份在GitHub上上市,现在已经有不止一颗星了。
每一项研究都有其历史背景。
在 CoT Hub 之前,大多数大型模型评估都是使用零射击和单轮对话完成的,即在一次对话动作中提出问题并获得答案。
然而,这种简单的方法很容易有针对性地进行训练,并且在大型模型的更高级性能评估方面缺乏区分度。
CoT Hub 没有创建新的数据集。
它只是带来了市场上高质量的数据集,打磨了适当的提示,将原来的零射击方法转换为多轮对话,并检验了CoT能力。
当任务变得复杂时,模型的性能进一步划分等级。
CoT Hub 团队当时得出的结论是,开源的 Llama-65B 模型的性能非常接近 code-davinci-,即 GPT-3.5 的基本模型。
但即便如此,开源模式与封闭模式之间的差距仍然巨大。
在真正具有挑战性的数据集上(例如Big-Bench-Hard),小参数模型和大参数模型之间的差距是惊人的,而不是像一些文章或迂腐论文所说的那样,前者可以“与大参数竞争”与小。
” “大参数模型的性能可以重现,甚至赶上了ChatGPT。
看来‘幻觉’这个东西不仅出现在模型上,也出现在列表上。
但后者并不是幻觉的反映人类大脑的。
最终我们要测试的是超越人类的智能。
可以测试吗?生活在二次元世界的平国的卑微居民“方先生”有一天,遇见了从三维国度来传福音的“球”先生。
“球”先生很容易就能看到“方”先生的身体。
在里面,甚至穿过它,就像用手指从上面戳一张纸一样。
但这一切后者却无法理解。
图片来源:知乎@李思 这是我对大模型评估最大的疑问:如果大模型的期望是走向AGI,那么我们应该如何用人类设计的评估标准来衡量或描述一个模型?智力比人类高?高帆提供了一个想法:这件事可能可以理解为如何找到一种方法来帮助人类监督大型模型的表现,并使这种监督具有足够的可扩展性。
“例如,我们希望一个具有小学教育程度的数据标注员能够判断模型在 MMLU 上的表现。
如果这是真的,那么也许我们可以将其扩展到人类极限,看看超出人类极限的测试结果人类的极限。
”高凡说道。
他向我展示了一个非常有趣的作品——准确地说是一个演示——关于如何使非程序员能够像程序员一样使用一些特殊的工具来标记数据集。
OpenAI 在 12 月发表的一篇关于 Superalignment 的论文中,演示了一种使用 GPT-2 监督 GPT-4 的方法。
这和前面的“弱”监管和“强”监管的例子是一样的。
逻辑。
这个问题属于可扩展监督的范畴——去年 7 月 OpenAI 首次宣布其超级对齐项目时提到过——关于如何监督一个在特定领域优于人类的系统,并寻找可以大规模扩展的方法。
扩大规模的可能性。
监督扩展是对齐领域的一个分支。
有一些研究人员正在推动这一领域的研究。
其中一位是纽约大学的教授。
“他还担任 Anthropic 的导师。
”现在领导 OpenAI 的“超级对齐”部门的是 Ilya,但他在一个月前的 OpenAI 内部叛变后陷入了尴尬的境地,很少在 X 上更新消息。
他“消失”前的最后一份工作是 OpenAI 关于“超级对齐”的论文”。
论文提到了另一个超越人类探索的大模型:辩论。
高帆最关心的就是这个。
“但是——辩论?” “人类有两条线,一条是形式语言,也就是逻辑范畴。
这条线一直延伸到今天,就是计算机语言。
与它平行的,还有一条非形式语言的线。
——那些关于语用学、语义学和修辞学的东西——现在的发展与辩论艺术有关,比如法律。
“辩论能力和说服能力目前在人工智能中还没有定义清晰的能力。
”但既然推理能力可以被明确定义,理论上同样层面的争论应该转移到语言模型上,但目前的研究还太浅薄。
“我记得GPT-4刚发布两个月后就出了一篇论文,论文作者要求一个大语言模型在卖气球的任务中充当买家和卖家,并添加了一个大模型”评论家”充当买家和卖家,双方都提供反馈,气球的价格从20美元起,看看最后会是什么价格。
从实验内容来看,这是对辩论能力的考验从批评者的角度来看,这个实验类似于用GPT-2来监督GPT-4有点像,并且是监督扩展中非常有代表性的路线,这篇论文的作者也是符尧, C-Eval的“鼻祖”下一站是Google的Gemini所遇到的问题,设计师正在尝试的想法,甚至“鼻祖”的工作选择,都说明了一件事:大模型不会停留在这些上。
选择题和最后的列表,真正做大模型的公司都已经这么做了。
有自己的方法。
现在对外披露的评估基准更多地起到了宣传工具的作用(甚至不是ToVC),而在大型模型公司内部,他们往往有更有针对性的评估基准。
一位目前很火的大型模型公司产品经理的朋友表示,这套内部评测基准需要很长时间的调试。
它实际上是一家大型模型公司的核心资产。
,为自己模型的训练和迭代提供方向。
“评估基准一开始是滞后的,后来变成了一个被使用的工具,逐渐泡沫化。
现在泡沫期已经快结束了。
”高帆说。
“最终,用户会用脚投票。
”注:高帆对文中笔名点赞。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-18
06-17
06-17
06-17
06-18
06-06
最新文章
首先告诉我什么是智能汽车!
盲盒明星卡的暴利与泡沫:2元卡卖700万,直播卖卡月入百万
黑色星期五轰轰烈烈地回来了,结果这些中国企业扛起了全场
锂电池隔膜疯狂扩产:兴源材料欲夺回C位?
当我考上缅语专业时:凌晨三点我还在走廊里背单词,毕业后,我不仅仅是一名翻译者
被遗弃,被收获?老年人上网到底有多难?
海外日报 -今年,我国自主研发游戏海外实际销售收入实现两位数增长;三星电子正式成立机器人业务团队36氪海外·15分钟前
腾讯音乐:爱、相信、坚持