首页 > 科技未来 > 内容

中国分数排名全球第一,多次盲测与GPT4o并列,这个国产大模型为何成为AI界的黑马?

发布于:2024-06-21 编辑:匿名 来源:网络

零一玩物好像搭载的是V12发动机。

本月13日,李开复和零一玩物发布了他们的第二款产品——Yi-Large闭源模型。

上映不到半个月,《一大》已经从不怕虎的初生牛犊,变成了长江后浪推前浪的实力派。

上周,大型模型竞技场Chatbot Arena突然出现了一个名为“im-also-a-good-gpt2-chatbot”的神秘模型,排名直接高于GPT-4-Turbo、Gemini 1.5 Pro、Claude 30pus、Llama-3 -70b等国际主要制造商的流行基础型号。

这个神秘的模型就是GPT-4o的测试版本。

OpenAI CEO Sam Altman也在GPT-4o发布后亲自转发了LMSYS arena盲测的测试结果。

一周后,在最新更新的排行榜中,“im-also-a-good-gpt2-chatbot”的黑马故事再次上演。

此次排名迅速上升的模特是中国大型模特公司零一玩物提交的。

“Yi-Large”千亿参数大型闭源模型。

在LMSYS盲测赛场最新排名中,零一玩物最新千亿参数模型Yi-Large位列全球第七、中国大型模型第一,超越Llama-3-70B和Claude 3 Sonnet,与开放研究组织LMSYS Org(大型模型系统组织)发布的GPT4o并列全球第一。

与OpenAI、Anthropic、Google、Meta等国际大公司进行正面角逐,并且还开启了大众投票功能,零一五五也因此成为唯一一家拥有自己模型进入前十的中国大型模型公司。

总榜中,GPT系列占据前10名中的4席。

按组织顺序来看,零一五五01.AI仅次于OpenAI、Google、Anthropic,正式进入全球顶级大型模型企业行列。

中国分数排名全球第一,多次盲测与GPT4o并列,这个国产大模型为何成为AI界的黑马?

现在看来,“成为世界第一”的口号不仅仅是一个口号,而是正在成为。

中国分数排名世界第一,“烧脑”盲测排名世界第二。

LMSYS Chatboat Arena盲测结果于美国时间2020年5月20日刚刚刷新,来自迄今为止累计超过10000名全球用户的真实投票。

值得一提的是,为了提高Chatbot Arena查询的整体质量,LMSYS还实现了去重机制,在去除冗余查询后发布列表。

这种新机制旨在消除过度冗余的用户提示,例如过度重复的“你好”,这可能会影响排名的准确性。

LMSYS公开表示,去除冗余查询后的列表未来将成为默认列表。

在去除冗余查询后的总体列表中,Yi-Large 的 Elo 分数更进一步,与 Claude 3 Opus 和 GPT-4-preview 一起排名第四。

除了总体榜单外,LMSYS还新增了英文、中文、法文三种语言评测,并开始关注全球大模型的多样性。

Yi-Large 荣登中文排行榜榜首,与 GPT4o 并列第一。

Qwen-Max和GLM-4在中文榜单上也表现出色。

国内大型模型厂商中,阿里巴巴的Qwen-Max和智普的GLM-4表现均异常出色。

在品类排名中,大一也表现出色。

编程能力、长题和最新“难点提示词”三项测评,都是LMSYS给出的针对性榜单。

他们以专业性和高难度而闻名。

堪称“最烧脑”的大众盲人大模型。

测量。

编程能力、长题和最新“难点提示词”三项测评,专业又难。

也被誉为LMSYS榜单中“最烧脑”的公开盲测。

在编程能力(Coding)排名中,Yi-Large的Elo分数超过Anthropic的Claude 3 Opus,仅低于GPT-4o,与GPT-4-Turbo和GPT-4并列第二;长问题(Longer)查询)榜单中,Yi-Large 也排名全球第二,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列;硬提示榜单上,Yi-Large 与 GPT -4-Turbo、GPT-4、Claude 3 Opus 并列第二名。

如何用科学的方法获得客观的结果,为大型模型提供客观公正的评价,一直是业界广泛关注的话题。

此前,行业内曾出现过各种“刷排名”的方法,但始终无法体现大模型的真实能力,让想要了解的人一头雾水,也让相关行业的投资者摸不着头脑。

LMSYS Org 发布的 Chatbot Arena 开始打破这种混乱。

以其新颖的“竞技场”赛制和测试团队的严谨,成为全球业界认可的标杆。

甚至 OpenAI 在 GPT-4o 正式发布之前也在 LMSYS 上进行了匿名预发布和预测试。

OpenAI创始团队成员Andrej Karpathy甚至公开表示:Chatbot Arena太棒了。

在形式上,Chatbot Arena借鉴了搜索引擎时代的横向对比评估思路:首先,所有上传的评估“参与者”模型随机配对,以匿名模型的形式呈现给用户;然后让真实用户输入自己的提示词,在不知道型号型号名称的情况下,真实用户对两种型号产品的答案进行评价。

然后在盲测平台上,将大模型两两进行比较,用户独立输入关于大模型的问题;两个PK模型的真实结果分别在模型A和模型B双方生成,用户在结果下方进行四种投票选择。

1:模型A更好/模型B更好/两者并列/两者都不好;提交后即可进行下一轮PK。

通过众筹真实用户进行在线实时盲测和匿名投票,Chatbot Arena一方面减少了偏见的影响,另一方面最大程度地避免了根据测试集进行排名的可能性,从而提高最终结果的客观性。

Chatbot Arena 还会在清理和匿名化后公开所有用户投票数据。

在收集真实用户投票数据后,LMSYS Chatbot Arena还将使用Elo评分系统来量化模型的性能,进一步优化评分机制,力求公平地反映参与者的实力。

在Elo评分系统中,每个参与者都会收到一个基线分数,每场比赛结束后,参与者的分数都会根据比赛结果进行调整。

系统会根据参与者的评分计算获胜的概率。

一旦低分玩家击败高分玩家,低分玩家将获得更多积分,反之亦然。

通过引入Elo评分系统,LMSYS Chatbot Arena在很大程度上保证了排名的客观性和公平性。

此次Chatbot Arena共有44个模型参与,其中包括顶级开源模型Llama3-70B,以及各大厂商的闭源模型。

从最新的Elo分数来看,GPT-4o分数高居榜首; GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large等型号以左右成绩排名第二梯队;随后,Bard(Gemini Pro)、Llama-3-70b-Instruct和Claude 3十四行诗的分数断崖式下跌至10分左右。

值得一提的是,前6名模型分别属于海外巨头OpenAI、Google、Anthropic。

零一万武排名全球第四,GPT-4、Gemini 1.5 Pro等型号均为万亿级超大参数规模。

旗舰机型等机型也都是千亿参数级别。

Yi-Large“以小博大”,仅千亿参数紧随其后。

AI大模型的竞争发展仍处于激烈阶段,人工智能的“百模型之战”还将继续上演。

在这个以“周”甚至“天”为迭代单位的领域,有一个相对公平客观的评价体系。

变得尤为重要。

一个不断更新评分体系的评测平台,不仅可以让行业投资者看到技术发展的真实现状,也可以让用户拥有选择先进模型的权利,也可以促进整个大型模型行业的健康发展。

无论是为了自身模型能力的迭代,还是从长远口碑的角度来看,大型模型厂商都应该积极参与像Chatbot Arena这样的权威评测平台,通过实际的用户反馈和专业的评测机制来证明自己的产品。

竞争力。

相反,如果只关心排名结果而忽视模型的真实应用效果,模型能力与市场需求的差距就会更加明显,最终难以在激烈的AI中站稳脚跟市场竞争。

在AI时代的边缘,各大模型厂商想要做到优秀甚至一流,至少需要两个素质:我要每天三遍审视自己:在进步中获得经验,得到答案通过竞争;真金不怕火炼:比较与其假装“野榜”第一,不如向内找,提升自己的真实能力。

值得期待的是,现在已经出现了一批脚踏实地、研发创新、甚至可以在国际舞台上与行业巨头同台竞技的优秀国内大型模型制造商。

中国分数排名全球第一,多次盲测与GPT4o并列,这个国产大模型为何成为AI界的黑马?

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 疫情影响下的MWC:赞助商退出、湖北人员被禁止入场、参与者“不握手”

    疫情影响下的MWC:赞助商退出、湖北人员被禁止入场、参与者“不握手”

    目前看来,新冠病毒疫情对科技行业的影响不小。 半个月后,科技界将集体聚焦西班牙巴塞罗那世界移动通信大会(以下简称MWC)——全球移动通信领域规模最大、最重要的贸易展会,全球移动通信发展风向标。 移动新技术。 。 每年的MWC上,各大厂商都会发布自己的最新设备,吸引了

    06-17

  • BOSS直聘计划下半年赴美IPO,融资5亿美元,

    BOSS直聘计划下半年赴美IPO,融资5亿美元,

    BOSS直聘计划下半年赴美IPO,融资5亿美元。

    06-17

  • 餐饮行业客服机器人:快速响应客户需求

    餐饮行业客服机器人:快速响应客户需求

    .wp-block-column h3{margin-left:0} 在餐饮行业,客户服务质量直接影响客户满意度和品牌形象。 近年来,随着技术的快速发展,客服机器人逐渐成为推动行业变革的关键因素。 其中,GaussMind客服机器人凭借出色的语音识别和智能回复功能,为餐饮行业提供了无与伦比的客服体验。

    06-17

  • 车云计算公司智协慧通获数千万元融资,由缤富资本

    车云计算公司智协慧通获数千万元融资,由缤富资本

    投资社区(ID:pedaily)领投。 8月10日消息,智协慧通近期完成数千万元A1轮融资。 本轮融资由宾富资本领投,富资本领投,瑞穗MLI基金、老股东MLI基金、世奇投资跟投,易博资本担任融资顾问。 智协慧通成立于2007年,业务定位是基于边缘计算、数据库等基础软件技术,为智能汽

    06-17

  • 分布式HTAP数据库初创公司“泽拓科技”完成A轮融资

    分布式HTAP数据库初创公司“泽拓科技”完成A轮融资

    投资社区(ID:pedaily)4月6日消息,分布式HTAP数据库初创公司“泽拓科技”近日宣布完成A轮融资。 投资者正在为复星创造财富,老股东常春藤资本持续加大投资。 本轮资金将主要用于产品研发和团队建设。 泽拓科技成立于2007年,是一家专注于于云原生分布式HTAP数据库的初创公

    06-17

  • 加密货币交易所Coinbase申请上市,估值或达千亿美元

    加密货币交易所Coinbase申请上市,估值或达千亿美元

    据美国证券交易委员会官网消息,加密货币交易所Coinbase披露S-1注册声明文件,离上市又近了一步清单。 文件显示,Coinbase计划在纳斯达克上市其A类普通股,股票代码为“COIN”,高盛、花旗集团、摩根大通等公司担任财务顾问。 据彭博社报道,该公司股票估值近1000亿美元,可

    06-17

  • 维修工单制度:制造业售后领域变革的源头

    维修工单制度:制造业售后领域变革的源头

    .wp-block-column h3{margin-left:0} 1.引言随着制造业市场竞争的加剧,售后服务已成为为企业带来竞争优势。 关键环节。 维修工单系统作为制造售后领域的重要工具,发挥着越来越重要的作用。 下面我们将通过一些具体的例子来深入探讨维修工单系统在制造售后领域的应用和意义。

    06-17

  • 德邦基金总经理陈星德辞职,一季度公司规模下跌5.62%

    德邦基金总经理陈星德辞职,一季度公司规模下跌5.62%

    今日德邦基金发布公司高级管理人员换人公告。 陈星德因个人原因辞去公司总经理职务。 辞职日期为2020年5月17日,无调动其他职务的情况。 邮政。 据悉,代理基金经理总经理是左昌。

    06-17

  • 美国品牌聚合初创公司「Heyday」获 5.55 亿美元 C 轮融资,估值超 10 亿美元

    美国品牌聚合初创公司「Heyday」获 5.55 亿美元 C 轮融资,估值超 10 亿美元

    总部位于旧金山的初创公司「Heyday」近日宣布完成 5.55 亿美元 C 轮融资,融资方为Raine Group 和 PremjiInvest 共同领投,其他参与方包括现有投资者 General Catalyst、Victory Park Capital 和 Khosla Ventures。

    06-18

  • 相约重庆,畅谈AI——创享百城·重庆人工智能助力产业创新发展论坛诚邀您报名

    相约重庆,畅谈AI——创享百城·重庆人工智能助力产业创新发展论坛诚邀您报名

    人工智能的崛起,标志着一个以数据驱动、以数据为驱动的新时代的到来基于智能的一个以技术为核心、以技术为催化剂的时代。 为推动中小企业在AI智能时代有效运用前沿技术提升自身效率和能力,阿里云打造“创享百城”主题论坛活动,旨在帮助中小企业中型企业深刻理解数据背后的

    06-18

  • 创业不易,我们与您同在!双11创业节火热进行中

    创业不易,我们与您同在!双11创业节火热进行中

    热销产品买买买!在云上创业 Go Go Go!阿里云双11创业节持续火爆,宝宝创新团队陪你云上创业。 【数百款创业服务产品低至0.40折】热门云产品,全年最低价新客户特别优惠,云服务器起价低至0.40折,从IT技术开发、网站建设、品牌营销、融资对接、工商知识产权都有适配的产品,

    06-18

  • 小鹏汽车树立2024年旗帜:3年推出30款汽车,新增员工4000人,智能驾驶投入35亿

    小鹏汽车树立2024年旗帜:3年推出30款汽车,新增员工4000人,智能驾驶投入35亿

    2月18日,龙年开工第一天,小鹏汽车CEO何小鹏写道致全体员工的一封信 内部信就像一位将军鼓励战士,言语中充满了战斗的味道。 信的开头,何小鹏首先回顾了明年,称这是“痛并快乐着”的一年。 我们在组织、规划、业务、运营、效率等方面进行了多方面的调整。 我们经历过痛苦,

    06-18