首页 > 科技未来 > 内容

零一五物发布千亿参数模型Yi-Large,李开复:中国大模型追赶美国,立志匹敌GPT-5

发布于:2024-06-21 编辑:匿名 来源:网络

时隔一年,李开复再次出圈“零一”呜呜”。

去年5月,零一五五成立,六个月后发布了首款中英双语大模型易系列。

从一开始,李开复就设定了一个雄心勃勃且艰巨的目标:“成为世界第一”。

自诞生以来就是“当红辣鸡”的零一玩物,也凭借着大厂背景和优秀模型表现的团队,估值达到了10亿美元。

今天,他们带来了第二个产品:Yi-Large 闭源模型。

进击全球SOTA大型模型 去年11月,零一五五发布的Yi-34B以其“甜点级”尺寸登上开源社区抱脸榜单,超越了Llama2-70B、Falcon等数倍大的模型-B,成为当时世界上最强大的开源基础模型之一。

半年后,零一五五正式发布参数规模千亿的Yi-Large。

在第三方权威评测中,零一五五易模型在全球头部模型的中英双语PK中表现出色。

在斯坦福评测机构AlpacaEval 2.0最新官方认证的模型排名中,Yi-Large模型的英语水平主要指标LC Win Rate(控制回复长度)排名全球第二,仅次于GPT -4 Turbo,胜率甚至排名全球第一。

此前,国产车型中只有逸和Qwen进入过该榜单的前20名。

智能地使用大型模型的一个重要前提是它必须知道你在说什么。

国外模型表现出色,但都是基于英语上下文。

然而,出生在国内的国内大模特在懂中文方面有着得天独厚的优势。

中文能力方面,在SuperCLUE更新的4月份基准表现中,Yi-Large也位列国产大型机型第一名。

亿大的中英双语综合能力展现了出色的表现。

在对大型模型的综合能力进行更全面的评测中,Yi-Large的大部分指标超过了GPT4、Claude3、Google Gemini 1.5等同类模型,达到了第一名。

在通用能力、代码生成、数学推理、指令跟随等方面,取得了优于全球领先者的成绩,稳居全球第一梯队。

随着各家公司的大模型能力进入力争对标GPT4的新阶段,大模型评测的重点也开始从简单的通用能力转向数学、编码等复杂的推理能力。

Yi-Large还在代码生成能力的HumanEval、数学推理能力的GSM-8K和MATH、领域专家能力的GPQA等评估集上取得了亮眼的成绩。

此外,从行业实现的角度来看,理解人类指令、契合人类偏好已经成为大型模型不可或缺的能力,指令跟随(Instruction Follow)相关评估越来越受到全球大型模型公司的重视。

斯坦福开源评估项目AlpacaEval和伯克利LM-SYS推出的MT-bench是两套英文指令符合性评估集,AlignBench是清华大学团队推出的中文对齐评估基准。

在国内外权威指令的评测集中,Yi-Large的表现优于国际前五名机型。

发布会上,李开复还宣布零一五五启动了下一代Yi-XLarge MoE模型训练,这将对GPT-5的性能和创新产生影响。

与此同时,零一也在考虑一些非常复杂的问题。

李开复总结了三个关键点:一方面要为技术的进步做好准备,能够生产什么样的车型;另一方面要做好准备。

第二,如何最小化推理成本,让我们点燃包容点;第三,还有传统的PMF来寻找用户需求。

李开复表示,这些考虑是他们在硅谷公司中普遍看不到的:这是我们独特的做法,也是中国独角兽公司的机会。

Yi-1.5全面升级,API平台全球上线。

在本次发布会上,零一易系列开源机型也得到了全面升级。

Yi-1.5分为34B、9B、6B三个版本,并提供Yi-1.5-Chat。

微调模型可供开发者选择。

从评测数据来看,Yi-1.5系列延续了Yi系列开源机型的出色表现。

数学逻辑和编码能力全面增强的同时,语言能力也保持了原有的高水平。

经过微调,Yi-1.5-6B/9B/34B-Chat在数学推理、编码能力、指令跟随等方面都达到了一个新的水平。

Yi-1.5-6B/9B-Chat在GSM-8K、MATH等数学能力评价集以及HumanEval、MBPP等代码能力评价集上的表现与参数级模型相差甚远,也比最近发布的 Llama-3-8B -Instruct 更好。

MT-Bench、AlignBench、AlpacaEval 上的得分在相同参数量级的模型中也处于领先地位。

去年,零一五五选择开源推出Yi系列模型,其优异的性能得到了国际开发者的高度认可。

2019年11月Yi开源版本上线后的第一个月,就占据了开源社区热门模型排行榜近50%的份额。

发布一个月后,Yi-34B 就被纳入 Nvidia Large Model Playground。

在大型车型开发、产品落地等问题上,李开复也有自己的解决思路。

李开复在接受APPSO采访时表示:我们是AGI务实的信徒。

我们必须用最少的芯片和最低的成本来训练出最好的模型。

同时,我们也会继续探索和寻找TC-PMF。

与硅谷公司相比,国内初创公司的不同之处在于我们可以仰望星空,但我们也可以脚踏实地。

零一唯一的思考是,万物不会凭纯粹的武力产生奇迹,追求用百亿美元还是千亿美元能做到。

OPEN AI有资格尝试这条路,但这并不是他们想要走的路。

当然,他们不会花时间去预测AGI的燃点,但他可以肯定地告诉大家,与他们更相关的是AI普惠。

观点。

今天,零一五五还宣布,已向国内市场一次性发布了Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-K、Yi-Vision、Yi-Spark等多个模型API接口。

时间。

易API平台英文站同时向全球开发者开放试用申请。

其中千亿参数规模的Yi-Large API拥有超强的文本生成和推理性能,适用于复杂推理、预测、深度内容创作等场景; Yi-Large-Turbo API 基于性能、推理速度和成本。

均衡高精度调优,适合全场景,高质量推理和文本生成。

Yi-Medium API的优势在于能够遵循指令,适合常规场景下的聊天、对话、翻译等场景;如果您需要超长内容文档相关的应用,还可以选择Yi-Medium-K API,它可以一次解释20万字的文本; Yi-Vision API具有高性能的图像理解和分析能力,可以服务基于图像的聊天、分析等场景; Yi-Spark API注重轻量级和极快响应,适用于轻量级数学分析、代码生成、文本聊天等场景。

更重要的是,已经有实际应用,为胰腺肿瘤患者设计的“小胰腺”就是其中之一。

小医宝AI助手可以每周7天、每天24小时向患者介绍全面的治疗知识。

这个助手背后的技术支撑就是零一的万物之理模型。

使用Yi API调用大AI模型后,小胃宝突破了胰腺肿瘤治疗的信息壁垒,可以准确、系统地向胰腺肿瘤患者呈现胰腺癌治疗路线图和治疗方案。

目前,这个慈善项目已经帮助了很多胰腺肿瘤患者。

一站式工作平台 今天的发布会还介绍了零一五五近期推出的一站式人工智能工作站“万智”。

据官方介绍,万智是专为中国用户打造的一站式人工智能工作平台。

可以制作会议纪要、周报、写作助手、解读财务报告、论文、制作PPT。

它是中英文双语的,并且完全免费。

目前,用户可以通过官网和微信小程序“玩智AI”登录体验。

发布会上,万智官方举了一个很实际的例子:你刚到公司楼下,突然被领导要求做会议演示,但电脑不在身边。

现在通过玩智,您??可以在手机上输入您想要演示的主题。

然后等你从电梯到工作站的两分钟内,万智网页上的PPT就已经准备好了。

之后只需进行一些简单的文字、图片和修改即可直接使用。

除此之外,万智还有很多其他的功能。

首先是文档阅读能力。

万智AI助手可以快速阅读和理解大量文档内容,包括长文档和复杂的财务数据。

它可以在几秒钟内提取关键信息,并支持中英文双语阅读。

其次,在一般问答场景中,万智也展现出了出色的产品表现,能够快速给出合适的答案,并提供专业、快速的反馈。

此外,万智AI助手不仅支持文本输出,还可以以表格、公式、代码等多种形式展示信息,让工作报告和人生规划更加清晰。

最后,万智AI助手可以实时访问互联网信息,确保用户获得的数据和见解是最新、最准确的。

据万智团队研究观察,使用万智后个人工作效率平均提升50%以上,特别是在知识检索、文档构思和写作等方面,节省了大量时间。

目前,万智AI助手完全免费向用户开放。

万智官方表示,类似大机型的应用必将成为今年在国内的重要落地点。

李开复还提到,今年将是AI生产力工具元年,因为今年有些领域将会爆发。

他认为AI-Frist的真正价值在于谁来打造一个AI抖音、AI微信、AI淘宝?零一希望他们能够充当这样的点火者。

但整个AI的包容点不会同时到来,某些领域的应用要求会非常高。

比如说我们现在做的生产力工具,用户最终要对这个生产力工具产生的内容负责。

所以如果里面有一些错误,不完美,需要微调,甚至是一些小量的错觉,最终决定是否可以修改的是用户,所以用户的指标就是我能否产出更好的内容比没有此工具的时间更快。

李开复表示,TC-PMF实际上已经实现了,但还可以更好,所以今年肯定会在生产力工具中发生。

目前,零一五五海外生产力应用用户总数已接近千万,今年单款ToC产品收入达亿元。

李开复透露:我们的ROI还在1左右。

因此,这样的成绩是非常有优势的,至少从国内大型模型公司的角度来看。

年初,当国内大型模型领域混战时,各种评测榜单铺天盖地,有不少车型登上了各大榜单的前茅。

AI 1.0时代,人工智能尚未展现出高度的泛化和涌现能力,针对头部客户的私有化部署模式已成为主流。

然而,时间证明,以项目为导向的重交付模式带来的收入增长存在上限,其可持续性挑战严峻。

如今我们正处于AI 2.0时代,人工智能进入了新的发展阶段。

与1.0相比,AI 2.0标志着从基于规则的自动化处理向深度学习和自主学习能力的飞跃。

由此看来,AI领域的“百团大战”只会愈演愈烈。

去年以来,越来越多的国产大型车型在激烈的竞争中脱颖而出,也在全球知名榜单中取得了骄人的成绩。

今年,行业将进入更加现实的商业落地阶段,用户将根据应用端展现的能力用脚投票。

零一五物发布千亿参数模型Yi-Large,李开复:中国大模型追赶美国,立志匹敌GPT-5

如何在基础模型能力的基础上,尽可能提高应用效果,是追赶TC-PMF的重要问题。

李开复说:一年前,中国的大模式感觉太落后了(美国)。

但今天我们很自豪地说,我们狂奔了一年,就车型而言,我们至少赶上了一年前发布的美国顶级(大车型)产品。

当然,未来我们还会继续努力。

但是,我们需要有沉淀,对未来有展望,不能只是疯狂奔跑。

在长江后浪推前浪的AI时代,对于用户来说最大的意义就是在厂商的竞争中认识AI、了解AI、使用AI,甚至将其带到工作、学习和生活中。

而这也是AI技术的初衷和归宿。

零一五物发布千亿参数模型Yi-Large,李开复:中国大模型追赶美国,立志匹敌GPT-5

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 炒黄金给年轻人上了一课

    炒黄金给年轻人上了一课

    今年国庆“黄金周”成为黄金投资者的“黄金灾难”。 国庆节前,金价创下历史新高,接近元/克。 随后,仅9月27日、28日,国内金价就下跌20元/克以上。 截至10月10日,国内黄金价格约为元/克。 珠宝店的黄金价格通常高于黄金的市场价格。 国庆节前,各大珠宝品牌销售的黄金首饰

    06-18

  • 纳斯达克公布Coinbase上市参考价,估值653亿美元

    纳斯达克公布Coinbase上市参考价,估值653亿美元

    纳斯达克周二表示,加密货币交易平台Coinbase上市参考价为每股美元。 在完全稀释的基础上,Coinbase 的估值约为 1 亿美元。 Coinbase是第一家在美国上市的大型加密货币公司。 如果其市值达到1亿美元,将成为美国最有价值的85家公司之一。

    06-18

  • 如何选择知识图谱可视化工具?

    如何选择知识图谱可视化工具?

    .wp-block-column h3{margin-left:0} 文章摘要:随着知识图谱数据规模的增大,未来知识图谱可视化工具需要具备更高效的大规模数据处理能力。 这包括大规模节点和关系的快速加载和渲染,以及对复杂图结构和属性的高效处理和分析能力。

    06-18

  • 先盛业财获近千万美元A轮融资

    先盛业财获近千万美元A轮融资

    据投资界11月2日消息,先盛业财宣布完成近千万美元A轮融资,由元璟资本和赛意产业基金投资,老股东常春藤资本持续加大投资,Index Capital担任本轮独家投资方。 先声业财表示,本轮融资将主要用于人才引进、销售扩张、生态建设等方面。 先胜业财成立于2001年,最初主要以国外

    06-18

  • 教育AI共享平台土必图获Pre-A轮融资,圆通速递战略投资

    教育AI共享平台土必图获Pre-A轮融资,圆通速递战略投资

    据投资界3月22日消息,据相关媒体报道,教育AI共享平台土必图与圆通速递达成投资战略合作,完成Pre-A轮数千万元融资。    据悉,圆通速递此次投资了土必图教育共享平台,估值至少2亿。 本次注资后,圆通将与土必图教育进行资源互通,将快递资源接入土必图教育共享平台,依

    06-17

  • 联发科将于今年晚些时候推出支持 5G 的 7nm 芯片组

    联发科将于今年晚些时候推出支持 5G 的 7nm 芯片组

    据一份新报告称,台湾芯片制造商联发科计划今年推出 5G 芯片组。 这款新芯片组将与高通 Snapdragon 和海思麒麟竞争。 联发科芯片组主要应用于入门级和中端智能手机。 新的联发科5G芯片组将采用7nm制造工艺。 据联发科称,新芯片组将比最新的 Helio P90 更强大。 与其他产品不

    06-06

  • 嘀嗒出行App推出“三通一键”功能,方便老年人打车

    嘀嗒出行App推出“三通一键”功能,方便老年人打车

    作者|沈周 移动互联网时代,老年人如何才能真正感受到现代智能科技带来的便捷、人文关怀和尊重?对于移动旅游平台来说,这是一个重要的问题。 近日,在国务院新闻办举行的第《关于切实解决老年人运用智能技术困难实施方案》国务院政策例行吹风会上,新闻发言人和交通运输部运

    06-17

  • 微鲸发布43英寸4K新品,重新定义行业标杆

    微鲸发布43英寸4K新品,重新定义行业标杆

    (2020年11月19日,北京)微鲸“哇玩”金秋发布会在北京举行。 微鲸科技CEO弗拉基米尔李怀宇宣布,刚刚过去的双十一期间,微鲸仅用一台55英寸电视就在天猫旗舰店卖出了5台,阿宝14分钟送到家,成为“第一”双十一天猫“单曲”,冠军也刷新了天猫55英寸单品销量,成为最年轻的

    06-18

  • 下游需求拉动业绩增长  北方华创上半年营收16.55亿元

    下游需求拉动业绩增长 北方华创上半年营收16.55亿元

    下游需求拉动业绩增长。 北方华创上半年营收16.55亿元。 日前,国内装备制造商北方华创发布了上半年业绩报告。 北方华创表示,上半年,在下游集成电路、光伏、平板显示等生产线建设以及高精度元器件需求的拉动下,公司电子工艺设备及电子元器件业务保持了高速增长。 整体增长

    06-06

  • 蓝店获数千万A+轮融资,是一家专注邻里关系的新型社区电商平台

    蓝店获数千万A+轮融资,是一家专注邻里关系的新型社区电商平台

    据投资界9月20日消息,蓝店今日宣布完成数十轮融资数百万A+轮融资,投资方为博信资本。 Bluedian首席执行官洪振业表示,本轮融资将用于供应链建设和技术投入,进一步打造Bluedian社区电商体系。 作为国内最早为快递企业提供终端收货服务的企业之一,蓝电意识到社区电商赛道依

    06-17

  • 国产手机红海之战,谁能重回国酷联盟主流?

    国产手机红海之战,谁能重回国酷联盟主流?

    乌镇全球互联网大会刚刚结束。 每年,丁磊都会为来到TMT的大佬一家举办丰盛的宴会。 因此,我们有必要讨论一下,这些象征着中国制造的国产手机能否熬过红海战争。 乌镇全球互联网大会刚刚结束。 每年,丁磊都会为来到TMT的大佬一家举办丰盛的宴会。 从今年刷屏的照片来看,国

    06-17

  • Apple Pencil 3 新功能曝光,至少有这三个更新

    Apple Pencil 3 新功能曝光,至少有这三个更新

    今天,苹果为开发者发布了 iPadOS 17.5 测试版。 9to5Mac 在其中发现了多段代码,暗示新款 Apple Pencil 将有一个重要更新:新的“挤压手势”。 新的挤压手势可以让用户快速进行一些简单的交互,让用户在各种操作中添加形状、签名、贴纸或文字更加方便灵活。 据推测,该手势将

    06-21