疫情影响下的MWC:赞助商退出、湖北人员被禁止入场、参与者“不握手”
06-17
零一玩物好像搭载的是V12发动机。
本月13日,李开复和零一玩物发布了他们的第二款产品——Yi-Large闭源模型。
上映不到半个月,《一大》已经从不怕虎的初生牛犊,变成了长江后浪推前浪的实力派。
上周,大型模型竞技场Chatbot Arena突然出现了一个名为“im-also-a-good-gpt2-chatbot”的神秘模型,排名直接高于GPT-4-Turbo、Gemini 1.5 Pro、Claude 30pus、Llama-3 -70b等国际主要制造商的流行基础型号。
这个神秘的模型就是GPT-4o的测试版本。
OpenAI CEO Sam Altman也在GPT-4o发布后亲自转发了LMSYS arena盲测的测试结果。
一周后,在最新更新的排行榜中,“im-also-a-good-gpt2-chatbot”的黑马故事再次上演。
此次排名迅速上升的模特是中国大型模特公司零一玩物提交的。
“Yi-Large”千亿参数大型闭源模型。
在LMSYS盲测赛场最新排名中,零一玩物最新千亿参数模型Yi-Large位列全球第七、中国大型模型第一,超越Llama-3-70B和Claude 3 Sonnet,与开放研究组织LMSYS Org(大型模型系统组织)发布的GPT4o并列全球第一。
与OpenAI、Anthropic、Google、Meta等国际大公司进行正面角逐,并且还开启了大众投票功能,零一五五也因此成为唯一一家拥有自己模型进入前十的中国大型模型公司。
总榜中,GPT系列占据前10名中的4席。
按组织顺序来看,零一五五01.AI仅次于OpenAI、Google、Anthropic,正式进入全球顶级大型模型企业行列。

现在看来,“成为世界第一”的口号不仅仅是一个口号,而是正在成为。
中国分数排名世界第一,“烧脑”盲测排名世界第二。
LMSYS Chatboat Arena盲测结果于美国时间2020年5月20日刚刚刷新,来自迄今为止累计超过10000名全球用户的真实投票。
值得一提的是,为了提高Chatbot Arena查询的整体质量,LMSYS还实现了去重机制,在去除冗余查询后发布列表。
这种新机制旨在消除过度冗余的用户提示,例如过度重复的“你好”,这可能会影响排名的准确性。
LMSYS公开表示,去除冗余查询后的列表未来将成为默认列表。
在去除冗余查询后的总体列表中,Yi-Large 的 Elo 分数更进一步,与 Claude 3 Opus 和 GPT-4-preview 一起排名第四。
除了总体榜单外,LMSYS还新增了英文、中文、法文三种语言评测,并开始关注全球大模型的多样性。
Yi-Large 荣登中文排行榜榜首,与 GPT4o 并列第一。
Qwen-Max和GLM-4在中文榜单上也表现出色。
国内大型模型厂商中,阿里巴巴的Qwen-Max和智普的GLM-4表现均异常出色。
在品类排名中,大一也表现出色。
编程能力、长题和最新“难点提示词”三项测评,都是LMSYS给出的针对性榜单。
他们以专业性和高难度而闻名。
堪称“最烧脑”的大众盲人大模型。
测量。
编程能力、长题和最新“难点提示词”三项测评,专业又难。
也被誉为LMSYS榜单中“最烧脑”的公开盲测。
在编程能力(Coding)排名中,Yi-Large的Elo分数超过Anthropic的Claude 3 Opus,仅低于GPT-4o,与GPT-4-Turbo和GPT-4并列第二;长问题(Longer)查询)榜单中,Yi-Large 也排名全球第二,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列;硬提示榜单上,Yi-Large 与 GPT -4-Turbo、GPT-4、Claude 3 Opus 并列第二名。
如何用科学的方法获得客观的结果,为大型模型提供客观公正的评价,一直是业界广泛关注的话题。
此前,行业内曾出现过各种“刷排名”的方法,但始终无法体现大模型的真实能力,让想要了解的人一头雾水,也让相关行业的投资者摸不着头脑。
LMSYS Org 发布的 Chatbot Arena 开始打破这种混乱。
以其新颖的“竞技场”赛制和测试团队的严谨,成为全球业界认可的标杆。
甚至 OpenAI 在 GPT-4o 正式发布之前也在 LMSYS 上进行了匿名预发布和预测试。
OpenAI创始团队成员Andrej Karpathy甚至公开表示:Chatbot Arena太棒了。
在形式上,Chatbot Arena借鉴了搜索引擎时代的横向对比评估思路:首先,所有上传的评估“参与者”模型随机配对,以匿名模型的形式呈现给用户;然后让真实用户输入自己的提示词,在不知道型号型号名称的情况下,真实用户对两种型号产品的答案进行评价。
然后在盲测平台上,将大模型两两进行比较,用户独立输入关于大模型的问题;两个PK模型的真实结果分别在模型A和模型B双方生成,用户在结果下方进行四种投票选择。
1:模型A更好/模型B更好/两者并列/两者都不好;提交后即可进行下一轮PK。
通过众筹真实用户进行在线实时盲测和匿名投票,Chatbot Arena一方面减少了偏见的影响,另一方面最大程度地避免了根据测试集进行排名的可能性,从而提高最终结果的客观性。
。
Chatbot Arena 还会在清理和匿名化后公开所有用户投票数据。
在收集真实用户投票数据后,LMSYS Chatbot Arena还将使用Elo评分系统来量化模型的性能,进一步优化评分机制,力求公平地反映参与者的实力。
在Elo评分系统中,每个参与者都会收到一个基线分数,每场比赛结束后,参与者的分数都会根据比赛结果进行调整。
系统会根据参与者的评分计算获胜的概率。
一旦低分玩家击败高分玩家,低分玩家将获得更多积分,反之亦然。
通过引入Elo评分系统,LMSYS Chatbot Arena在很大程度上保证了排名的客观性和公平性。
此次Chatbot Arena共有44个模型参与,其中包括顶级开源模型Llama3-70B,以及各大厂商的闭源模型。
从最新的Elo分数来看,GPT-4o分数高居榜首; GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large等型号以左右成绩排名第二梯队;随后,Bard(Gemini Pro)、Llama-3-70b-Instruct和Claude 3十四行诗的分数断崖式下跌至10分左右。
值得一提的是,前6名模型分别属于海外巨头OpenAI、Google、Anthropic。
零一万武排名全球第四,GPT-4、Gemini 1.5 Pro等型号均为万亿级超大参数规模。
旗舰机型等机型也都是千亿参数级别。
Yi-Large“以小博大”,仅千亿参数紧随其后。
AI大模型的竞争发展仍处于激烈阶段,人工智能的“百模型之战”还将继续上演。
在这个以“周”甚至“天”为迭代单位的领域,有一个相对公平客观的评价体系。
变得尤为重要。
一个不断更新评分体系的评测平台,不仅可以让行业投资者看到技术发展的真实现状,也可以让用户拥有选择先进模型的权利,也可以促进整个大型模型行业的健康发展。
无论是为了自身模型能力的迭代,还是从长远口碑的角度来看,大型模型厂商都应该积极参与像Chatbot Arena这样的权威评测平台,通过实际的用户反馈和专业的评测机制来证明自己的产品。
竞争力。
相反,如果只关心排名结果而忽视模型的真实应用效果,模型能力与市场需求的差距就会更加明显,最终难以在激烈的AI中站稳脚跟市场竞争。
在AI时代的边缘,各大模型厂商想要做到优秀甚至一流,至少需要两个素质:我要每天三遍审视自己:在进步中获得经验,得到答案通过竞争;真金不怕火炼:比较与其假装“野榜”第一,不如向内找,提升自己的真实能力。
值得期待的是,现在已经出现了一批脚踏实地、研发创新、甚至可以在国际舞台上与行业巨头同台竞技的优秀国内大型模型制造商。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-17
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态