首页 > 科技未来 > 内容

中国分数排名全球第一,多次盲测与GPT4o并列,这个国产大模型为何成为AI界的黑马?

发布于:2024-06-21 编辑:匿名 来源:网络

零一玩物好像搭载的是V12发动机。

本月13日,李开复和零一玩物发布了他们的第二款产品——Yi-Large闭源模型。

上映不到半个月,《一大》已经从不怕虎的初生牛犊,变成了长江后浪推前浪的实力派。

上周,大型模型竞技场Chatbot Arena突然出现了一个名为“im-also-a-good-gpt2-chatbot”的神秘模型,排名直接高于GPT-4-Turbo、Gemini 1.5 Pro、Claude 30pus、Llama-3 -70b等国际主要制造商的流行基础型号。

这个神秘的模型就是GPT-4o的测试版本。

OpenAI CEO Sam Altman也在GPT-4o发布后亲自转发了LMSYS arena盲测的测试结果。

一周后,在最新更新的排行榜中,“im-also-a-good-gpt2-chatbot”的黑马故事再次上演。

此次排名迅速上升的模特是中国大型模特公司零一玩物提交的。

“Yi-Large”千亿参数大型闭源模型。

在LMSYS盲测赛场最新排名中,零一玩物最新千亿参数模型Yi-Large位列全球第七、中国大型模型第一,超越Llama-3-70B和Claude 3 Sonnet,与开放研究组织LMSYS Org(大型模型系统组织)发布的GPT4o并列全球第一。

与OpenAI、Anthropic、Google、Meta等国际大公司进行正面角逐,并且还开启了大众投票功能,零一五五也因此成为唯一一家拥有自己模型进入前十的中国大型模型公司。

总榜中,GPT系列占据前10名中的4席。

按组织顺序来看,零一五五01.AI仅次于OpenAI、Google、Anthropic,正式进入全球顶级大型模型企业行列。

中国分数排名全球第一,多次盲测与GPT4o并列,这个国产大模型为何成为AI界的黑马?

现在看来,“成为世界第一”的口号不仅仅是一个口号,而是正在成为。

中国分数排名世界第一,“烧脑”盲测排名世界第二。

LMSYS Chatboat Arena盲测结果于美国时间2020年5月20日刚刚刷新,来自迄今为止累计超过10000名全球用户的真实投票。

值得一提的是,为了提高Chatbot Arena查询的整体质量,LMSYS还实现了去重机制,在去除冗余查询后发布列表。

这种新机制旨在消除过度冗余的用户提示,例如过度重复的“你好”,这可能会影响排名的准确性。

LMSYS公开表示,去除冗余查询后的列表未来将成为默认列表。

在去除冗余查询后的总体列表中,Yi-Large 的 Elo 分数更进一步,与 Claude 3 Opus 和 GPT-4-preview 一起排名第四。

除了总体榜单外,LMSYS还新增了英文、中文、法文三种语言评测,并开始关注全球大模型的多样性。

Yi-Large 荣登中文排行榜榜首,与 GPT4o 并列第一。

Qwen-Max和GLM-4在中文榜单上也表现出色。

国内大型模型厂商中,阿里巴巴的Qwen-Max和智普的GLM-4表现均异常出色。

在品类排名中,大一也表现出色。

编程能力、长题和最新“难点提示词”三项测评,都是LMSYS给出的针对性榜单。

他们以专业性和高难度而闻名。

堪称“最烧脑”的大众盲人大模型。

测量。

编程能力、长题和最新“难点提示词”三项测评,专业又难。

也被誉为LMSYS榜单中“最烧脑”的公开盲测。

在编程能力(Coding)排名中,Yi-Large的Elo分数超过Anthropic的Claude 3 Opus,仅低于GPT-4o,与GPT-4-Turbo和GPT-4并列第二;长问题(Longer)查询)榜单中,Yi-Large 也排名全球第二,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列;硬提示榜单上,Yi-Large 与 GPT -4-Turbo、GPT-4、Claude 3 Opus 并列第二名。

如何用科学的方法获得客观的结果,为大型模型提供客观公正的评价,一直是业界广泛关注的话题。

此前,行业内曾出现过各种“刷排名”的方法,但始终无法体现大模型的真实能力,让想要了解的人一头雾水,也让相关行业的投资者摸不着头脑。

LMSYS Org 发布的 Chatbot Arena 开始打破这种混乱。

以其新颖的“竞技场”赛制和测试团队的严谨,成为全球业界认可的标杆。

甚至 OpenAI 在 GPT-4o 正式发布之前也在 LMSYS 上进行了匿名预发布和预测试。

OpenAI创始团队成员Andrej Karpathy甚至公开表示:Chatbot Arena太棒了。

在形式上,Chatbot Arena借鉴了搜索引擎时代的横向对比评估思路:首先,所有上传的评估“参与者”模型随机配对,以匿名模型的形式呈现给用户;然后让真实用户输入自己的提示词,在不知道型号型号名称的情况下,真实用户对两种型号产品的答案进行评价。

然后在盲测平台上,将大模型两两进行比较,用户独立输入关于大模型的问题;两个PK模型的真实结果分别在模型A和模型B双方生成,用户在结果下方进行四种投票选择。

1:模型A更好/模型B更好/两者并列/两者都不好;提交后即可进行下一轮PK。

通过众筹真实用户进行在线实时盲测和匿名投票,Chatbot Arena一方面减少了偏见的影响,另一方面最大程度地避免了根据测试集进行排名的可能性,从而提高最终结果的客观性。

Chatbot Arena 还会在清理和匿名化后公开所有用户投票数据。

在收集真实用户投票数据后,LMSYS Chatbot Arena还将使用Elo评分系统来量化模型的性能,进一步优化评分机制,力求公平地反映参与者的实力。

在Elo评分系统中,每个参与者都会收到一个基线分数,每场比赛结束后,参与者的分数都会根据比赛结果进行调整。

系统会根据参与者的评分计算获胜的概率。

一旦低分玩家击败高分玩家,低分玩家将获得更多积分,反之亦然。

通过引入Elo评分系统,LMSYS Chatbot Arena在很大程度上保证了排名的客观性和公平性。

此次Chatbot Arena共有44个模型参与,其中包括顶级开源模型Llama3-70B,以及各大厂商的闭源模型。

从最新的Elo分数来看,GPT-4o分数高居榜首; GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large等型号以左右成绩排名第二梯队;随后,Bard(Gemini Pro)、Llama-3-70b-Instruct和Claude 3十四行诗的分数断崖式下跌至10分左右。

值得一提的是,前6名模型分别属于海外巨头OpenAI、Google、Anthropic。

零一万武排名全球第四,GPT-4、Gemini 1.5 Pro等型号均为万亿级超大参数规模。

旗舰机型等机型也都是千亿参数级别。

Yi-Large“以小博大”,仅千亿参数紧随其后。

AI大模型的竞争发展仍处于激烈阶段,人工智能的“百模型之战”还将继续上演。

在这个以“周”甚至“天”为迭代单位的领域,有一个相对公平客观的评价体系。

变得尤为重要。

一个不断更新评分体系的评测平台,不仅可以让行业投资者看到技术发展的真实现状,也可以让用户拥有选择先进模型的权利,也可以促进整个大型模型行业的健康发展。

无论是为了自身模型能力的迭代,还是从长远口碑的角度来看,大型模型厂商都应该积极参与像Chatbot Arena这样的权威评测平台,通过实际的用户反馈和专业的评测机制来证明自己的产品。

竞争力。

相反,如果只关心排名结果而忽视模型的真实应用效果,模型能力与市场需求的差距就会更加明显,最终难以在激烈的AI中站稳脚跟市场竞争。

在AI时代的边缘,各大模型厂商想要做到优秀甚至一流,至少需要两个素质:我要每天三遍审视自己:在进步中获得经验,得到答案通过竞争;真金不怕火炼:比较与其假装“野榜”第一,不如向内找,提升自己的真实能力。

值得期待的是,现在已经出现了一批脚踏实地、研发创新、甚至可以在国际舞台上与行业巨头同台竞技的优秀国内大型模型制造商。

中国分数排名全球第一,多次盲测与GPT4o并列,这个国产大模型为何成为AI界的黑马?

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 中信集团与杭州市共同设立50亿科技创新基金中的基金

    中信集团与杭州市共同设立50亿科技创新基金中的基金

    上头条 据中信集团官网发布的信息,3月24日,中信集团与杭州市联合宣布,双方将共同发起设立首期基金规模50亿元的中信杭州西部科创走廊产业基金(简称“中信杭州科创基金”)助力浙江高质量发展建设共同富裕示范区。 据了解,中信杭州科技创新基金将主要投资于先进制造、先进

    06-17

  • 满卡车联盟宣布投资巴西卡车及货运匹配平台TruckPad,国际化又迈进

    满卡车联盟宣布投资巴西卡车及货运匹配平台TruckPad,国际化又迈进

    据投资界11月8日消息,满卡车联盟(“满卡车联盟”)宣布战略投资巴西卡车及货物匹配平台TRUCKPAD TECNOLOGIA E LOGSTICA S.A.(以下简称“TruckPad”),通过其运营经验和技术支持,推动TruckPad在拉美地区的快速发展。 耀明成立于2007年,是巴西和拉美地区发展最快的车辆和

    06-18

  • 安永:预计明年首批50家A股IPO企业融资440亿

    安永:预计明年首批50家A股IPO企业融资440亿

    安永今日发布《全球IPO市场调研报告》预计明年1月重启首批A股IPO 。 首批50余家企业预计融资约1亿元。 其中,陕西煤炭工业和中国邮政速递物流两家规模较大的IPO募集资金约1亿元,占首批IPO企业的62%。 新股发行的定价和市盈率由市场决定,首批IPO可能会吸引新资金。   安永

    06-18

  • Lightspeed China Partners II, L.P.完成2.6亿美元超额募资

    Lightspeed China Partners II, L.P.完成2.6亿美元超额募资

    Lightspeed China Partners今天宣布,已完成Lightspeed China Partners II, L.P.本次募资,基金规模达到2.6亿美元,超过预计目标为2.2亿美元。   该基金将重点关注中国市场互联网、移动、技术驱动的服务行业和企业技术解决方案行业的早期投资。 光速安贞中国董事总经理曹大

    06-18

  • 尚达半导体完成7亿元A+轮融资,加速供应链国产化

    尚达半导体完成7亿元A+轮融资,加速供应链国产化

    投资界(ID:pedaily)消息,近日,显示驱动IC倒装供应商江苏尚达半导体股份有限公司芯片薄膜封装基板(COF),成功完成7亿元A+轮融资,由广东粤澳半导体产业投资基金、广州新兴基金、金石制造转型升级新材料基金、亿唐长厚基金、盛松资本联合领投,德宁资本、前海长城基金等

    06-18

  • 嬴彻科技完成1.88亿美元融资-钟鼎生态

    嬴彻科技完成1.88亿美元融资-钟鼎生态

    近日,自动驾驶卡车技术及运营公司嬴彻科技宣布完成1.88亿美元B+轮股权融资。 本轮融资由红杉中国和君联资本联合领投。 参与投资者包括周大福企业有限公司、云博资本及某大型国际股权基金,以及智慧供应链及供应链金融公司——吴中中大集团产业投资,现有股东美团、蔚来资本

    06-17

  • 《浙江省加快新能源汽车产业发展行动方案》

    《浙江省加快新能源汽车产业发展行动方案》

    省发展和改革委员会、省经济和信息化厅、省科学技术厅关于印发浙江省加快新能源汽车产业发展行动计划的通知。 各市、县(市、区)人民政府,省有关单位:《浙江省加快新能源汽车产业发展行动方案》已省政府同意,现印发给你们。 请结合实际考虑,认真贯彻落实。 浙江省发展和

    06-18

  • 海苗生物完成A轮融资,投资方为国际知名创投公司

    海苗生物完成A轮融资,投资方为国际知名创投公司

    据6月21日消息,苏州海苗生物科技有限公司(以下简称:海苗生物)与珀金埃尔默、美国IVD行业领军企业与风险投资公司签署股权投资协议,标志着海淼生物正式完成A轮融资,进入资本市场新的发展车道。 海淼生物成立于2016年,专注于精准医疗产业及POCT相关产品的研发、生产和销

    06-18

  • 南风资本首期融资超5亿美元,罗斯柴尔德家族参与

    南风资本首期融资超5亿美元,罗斯柴尔德家族参与

    投资界6月30日获悉,南风资本有限公司(“南风资本”)是一家私募股权公司,拥有全球聚焦跨境收购,今日南风基金正式宣布首轮融资募资超5亿美元,目标规模10亿美元。 第一期基金的主要投资者包括主权财富基金、知名金融机构、工业企业和欧洲著名家族基金。 南风资本由中国并购

    06-17

  • 【创业24小时-本地生活】2024年6月12日

    【创业24小时-本地生活】2024年6月12日

    餐饮食品中低价面包店的崛起与挑战:质量与价格的博弈近年来,随着消费者对面包价格的敏感度提高随着知名度的提高,低价面包店如雨后春笋般涌现。 尤其是在杭州,本土品牌MOKATOWN推出的9.9元面包店成为焦点。 这些商店以低廉的价格吸引顾客,但他们也面临着产品质量的质疑。

    06-18

  • 人机语音交互服务商“一智智能”完成过亿元B轮融资

    人机语音交互服务商“一智智能”完成过亿元B轮融资

    6月20日,人机语音交互服务商“一智智能”完成过亿元B轮融资由凯泰资本领投,亿联凯泰和中信证券投资共同投资。

    06-18

  • 理大研发的液态金属微电极具有柔软、透气、可拉伸的优点,可用于植入式生物电子装置

    理大研发的液态金属微电极具有柔软、透气、可拉伸的优点,可用于植入式生物电子装置

    香港理工大学植入式生物电子装置可紧贴皮肤,甚至插入人体身体。 我相信它未来会广泛应用于不同领域,比如医疗技术甚至新兴的增强现实技术。 香港理工大学(理大)的研究团队成功研发出一种独特的微电极,可用于上述用途。 该研究成果发表在国际科学期刊《Science Advances》

    06-06