首页 > 科技未来 > 内容

Step Stars:大模型“新游戏”中的新玩家

发布于:2024-06-18 编辑:匿名 来源:网络

在2019年3月23日的全球开发者先锋大会上,通用大型模型初创公司Step Stars正式发布了Step系列通用模型。

大模型包括Step-1千亿参数大语言模型、Step-1V千亿参数大多模态模型、Step-2万亿参数MoE语言大模型预览版。

据Stepstar CEO姜大昕介绍,2019年8月,一次性训练出千亿参数的Step-1大规模语言模型,仅用了两个月时间,综合性能超过GPT-3.5; 11月,千亿参数多模态语言模型训练成功。

大模型Step-1V也已经训练完成; Step-2万亿参数MoE语言大模型预览版是国内大模型初创公司发布的首个万亿参数模型。

过去一年,国内大型模型领域经历了一场“百模型大战”。

20年过去了,这家初创公司为何现在出现? 因为“新游戏”已经开始了。

虽然在过去的一年里,每隔一天就有一款新的大机型正式官宣,不到10月的时间里就有超过3款大机型,但现在回想起来,很多机型已经悄然沉默,停止了更新。

一个变化是,业界围绕Scaling Law(即模型尺寸扩大带来的性能提升)的共识逐渐清晰。

业界关心的问题不再是单纯的模型发布,而是模型能否继续遵循Scaling Law的路径,不断提升规模和性能。

在这个新阶段,谁能掌握缩放法则的力量,谁就能在这场“新游戏”中脱颖而出。

同时,多模态也是这场“新游戏”的关键。

OpenAI的发展轨迹以及Sora最近对大家的影响都证明了这一点。

文本模型发展到一定阶段后,多模态模型将成为AGI的重要路径。

步星选择这个时刻来揭晓过去一段时间的“跳水成绩”。

自成立以来,步星就在算力、数据、算法、系统四大要素上进行了全面布局,坚定投入在大模型技术道路上攀登Scaling Law。

成立初期就实现了多模态理解和生成统一,是通向AGI的必由之路。

他们相信自己来得正是时候,甚至在这场“新游戏”中占据了领先地位。

01 千亿起步,万亿在路上。

擅长多模态理解的Model Step Star,这家自成立以来就备受关注的大型模型公司,在3月23日的全球开发者先锋大会上正式发布了模型。

一年积累的成果——Step系列通用大型模型。

第一个是Step-1千亿参数语言模型,历时两个月训练成功,并已全面打磨。

其在逻辑推理、中文知识、英语知识、数学、编码方面的表现全面超越GPT-3.5。

Step-1V千亿参数多模态大模型在我国权威大型模型评估平台“OpenCompass”多模态模型评估榜单中排名第一,性能与GPT-4V相当。

尤其值得注意的是,Step-1V具有出色的多模态理解能力。

它可以准确地描述和理解图像中的文本、数据、图表等信息,并基于图像信息实现内容创作、逻辑推理、数据分析等多项任务。

此外,Step-1V还可以实现视频理解。

Step-1V理解与分析能力展示 |来源:步星官网 同时,步星还发布了Step-2万亿参数语言大模型的预览版,提供API接口供部分合作伙伴尝试。

该模型采用MoE架构,专注于深度智能的探索。

据了解,参数数量从千亿增长到万亿数量级,对算力、系统、数据、算法提出了极高的要求。

业内只有少数企业能够做到这一点。

Step-2万亿参数语言大模型预览版 |来源:步星官网 能够成功一次性训练千亿个参数,高效训练万亿参数模型,体现了步星的核心技术能力,而这背后是AGI的核心团队旨在设计更精准。

Step Star的CEO姜大昕也是该团队的算法负责人。

当他第一次接触ChatGPT时,他感到震惊。

多年的研究工作让他清楚,对于自然语言处理来说,常识和推理是最困难的两个问题。

以前,如果向聊天机器人询问年龄,一般基于检索的聊天机器人无法使用今天的日期。

如果减去常识中的“出生”日期,你会给出一个随机答案,但 ChatGPT 给出了不同的答案,“我当年受过训练,今天是当年的日子,所以我 3 岁”今年。

”常识和推理能力已经存在。

姜大昕认识到ChatGPT是一次划时代的技术变革。

但如果他继续留在微软,他只能在OpenAI模型上做一些应用。

模型的“黑匣子”不会向他开放。

他要打开模型的“黑匣子”,做自己的算法,自下而上做。

更大的颠覆是,“这是让我真正充满激情的一件事,我必须自己做。

”创业的想法就是在这里形成的。

有了想法,下一步就是组建团队。

姜大昕认为,大型模型的开发非常依赖于数据的质量。

目前负责步星数据团队的焦滨兴博士是前微软Bing引擎核心搜索团队负责人。

此前在微软工作了11年,基本研究了搜索引擎相关,这些经验,尤其是Bing搜索引擎在跨语言数据上的独特积累,对于中国大模型训练数据的优化和训练效率的提升至关重要。

和质量。

对于大型模型来说,除了算法和数据之外,重要的是系统。

只有足够强大的系统能力,才能不断探索缩放法则的“无限算力”要求。

步星系统负责人朱一波也曾在微软研究院工作过很长时间,对于单集群万多卡的系统搭建和管理有很多实践经验。

如此庞大的算力系统的经验是极其宝贵的。

在一线经历了过去10年的AI更新迭代,当ChatGPT模型的大潮到来时,姜大昕三人意识到,“这是一个非常大的技术变革,我们必须自己结束它,用最快、最灵活、最全面的变革方式”2017年4月,步星成立,国内算法、数据、系统最强的团队组合诞生。

姜大昕坚信,他的团队是该国最能应用规模法则的团队。

同时,步星与国内其他大型模型公司最大的区别在于,它不仅仅只是复制和追赶OpenAI的文本模型能力,而是追求多模态理解和生成的统一,因为他认为如果它最终的目标是实现AGI,那么这种统一是最重要的路径。

这也是随着过去一年技术发展不断拨开迷雾而日益清晰的判断。

多模态能力也是步星的核心优势之一。

从OpenAI推出Sora可以看出,语言模型的发展一方面在Scaling Law下看到了明确的路径,同时语言模型也在进一步推动多模态能力的突破,比如GPT- 4V为Sora训练标志着大模型的作用带来了令人兴奋的新发展空间。

因此,多模态领域大模型的后续发展,尤其是理解和生成的统一,是一个“新游戏”,也是一个更重要的方向。

了解步星不仅训练了自己的大模型,还围绕Step-1和Step-1V千亿参数大模型推出了两款C端产品、效率工具“阅文”和AI开放世界平台“风险”。

“泡鸭”现已全面开放使用。

《泡泡鸭》有剧情、有人物,用户可以开放探索。

以有趣好玩为主,强调模特的高情商; “阅文”是效率工具,注重实用性,强调模特的高智商。

同时,这两款产品的共同点是在多轮对话、执行指令、进行逻辑推理方面都有很强的表现。

《悦文》与《泡泡鸭》|来源:步星官网 此外,步星还与财联社、中文在线、中国知识基建等合作伙伴在财经、网络文学、知识服务等领域达成深度合作。

合作推广大模型应用。

02 “新游戏”需要新玩家、新能力。

虽然这是步星第一次正式亮相,但其实在一年前就已经开始布局。

去年4月,步星成立。

7月,开始训练千亿参数模型Step-1。

8月底培训取得圆满成功。

11月,还训练了千亿参数的多模态模型Step-1V。

图片来源:GDC大会之所以时隔一年仍有勇气进入“百模型之战”,是因为步星在算力、系统、数据、算法四个方面都有自己的技术自信。

在算力方面,步星科技自成立以来就意识到算力的重要性。

它自建机房,同时租用云端算力。

目前,步星拥有相应的计算能力来训练万亿参数模型。

同时,正是因为团队深知算力是稀缺且宝贵的,步星也强调了系统的重要性。

该系统的优点在于,如果系统设计和优化得当,可以放大计算能力的利用率。

姜大昕在采访中表示,“说到系统,如果有几万张卡,裸机放在一起是没有用的,也没有办法训练模型。

要训练模型,必须建立一个系统并在其上形成高性能系统。

”一个培训平台。

难点在于将数万张卡放在一个集群中,同时又保证集群的稳定性和效率。

一不小心,就会踏入陷阱。

”之所以步步没有踏入陷阱,是因为朱一波博士建立并领导的强大的系统团队。

据悉,朱一波有很多单集群一万多张卡的系统建设和管理的实践经验,源于姜大昕及其团队对AGI的追求。

多模态理解和生成的统一是唯一可行的道路吗?业界领先的OpenAI实际上正在走这条路,尽管它最近的动作令人眼花缭乱,包括DALL·E、Sora的推出。

,还有对机器人公司Figure的投资,还有去年“宫斗”期间还传出的神秘Q*计划……但这些举动对于姜大昕来说其实是有其来龙去脉的:一条主线+两条支线。

lines:主线:大模型的演化——这个演化分为三个阶段: 早期:语言、视觉、声音等不同模态独立发展,各自学习如何表示特征。

当前阶段:虽然多种模式开始融合,但理解模型和生成模型是分开开发的。

其结果是理解模型理解能力强但生成能力弱(如GPT-4V),或者生成模型生成能力强但理解能力弱(如Sora)。

“人类无法创造他们不理解的东西。

”这句话也适用于AI。

为了解决这个问题,理解和生成必须统一在一个模型中。

Step Stars:大模型“新游戏”中的新玩家

也就是说,多模态理解和生成的统一是通向AGI的必由之路。

年初Sora车型的发布,拉开了这一切的序幕。

未来阶段:理解与生成的统一,可以进一步与具身智能结合,形成世界模型。

更进一步,在世界模型的基础上增加规划复杂任务的能力和总结抽象概念的能力,已经真正进化到了AGI阶段。

第一个分支:体现智能。

将多模态模型应用于机器人或其他设备,以便它们能够与物理世界交互、自主收集数据并构建世界模型。

在此基础上增加复杂任务规划能力和抽象概念归纳能力,实现AGI。

OpenAI 对机器人公司Figure 的投资是体现智能的一个分支。

第二个分支:超对齐。

通过Q*计划等,OpenAI可能正在解决系统对齐问题并补充系统2(大脑的复杂任务规划、抽象概念归纳等能力)。

OpenAI的发展道路给姜大昕和核心团队带来了启发,但事实上,步星从一开始就已经确定了路径。

为此,在公司办公室,绘制了单模-多模-体现智能世界模型的发展阶段图。

Step Star此次推出的Step-1和Step-2是单模态语言模型,Step-1V是多模态理解模型,其他正在开发的模型都是沿着这个思路开发的。

他甚至觉得,从技术发展的现阶段开始,或许是一件好事。

“如果AGI是一座需要长期攀登的高山,那么看到正确的道路并建立正确的能力比早走几步更重要。

”姜大昕觉得,这一年来,虽然公司一直在低调前行,没有露面,但他始终处于创业兴奋的状态。

他感叹道,“人工智能一日,人类世界一年,我们每天都会被很多新消息轰炸。

世界变化真快。

在微软,我只看到这些新闻,但它有什么?”与我有关吗?我只是觉得整个世界都在我身边呼啸而过,让我在风中凌乱,所以我不得不开始创业。

现在,距离“百模之战”已经过去了一年,并且不乏另一种模式的结局,但行业的发展也进入了新的周期,从GPT-4到Gemini,多模态能力成为新的焦点,也是步星过去一年的积累。

它所设定的发展方向,或许就是支撑其此时正式登场,成为“新游戏中的新玩家”的底气。

*头图来源:GDC大会本文为极客公园原创文章。

转载请联系极客君微信geekparkGO #阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式信息服务,传递行业热点新闻,实时深度评论和前瞻观点,帮助创业者把握新兴技术趋势和行业变化,洞悉未来技术趋势。

Step Stars:大模型“新游戏”中的新玩家

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 多家机构将阿里云估值上调至千亿以上,高盛给予最高估值1238亿美元

    多家机构将阿里云估值上调至千亿以上,高盛给予最高估值1238亿美元

    8月27日消息,阿里巴巴发布强劲财季业绩后,高盛、摩根大通等机构上调阿里云估值阿里云估值阿里云估值已突破千亿美元,高盛将阿里云估值提升至1亿美元。 今年上半年,阿里云营收达亿元,市场份额连续四个季度增长,为市场注入强劲信心。 财报显示,本财年第一季度,阿里云营

    06-17

  • 高能数字化全固态电池生产线级设备订单超千万并开始发货

    高能数字化全固态电池生产线级设备订单超千万并开始发货

    在当前全球能源竞争日益激烈的今天,锂离子电池作为主要的储能介质已进入新时代技术的竞争源于产能的竞争。 。 工信部等四部委联合发布的《促进汽车动力电池产业发展行动方案(工信部联装〔〕29号)》明确要求新型锂离子动力电池能量密度必须达到Wh/kg。 这一参数已经远远超出

    06-17

  • 糖纸公测丨你的下一台电脑一定是电脑! Surface Laptop Go体验回顾

    糖纸公测丨你的下一台电脑一定是电脑! Surface Laptop Go体验回顾

    本文为作者@王努力的体验,首发于唐知公测。 当我们谈论 iPhone 时,很难避免乔布斯在初代 iPhone 发布会上演示滑动解锁的经典形象。 当我们谈论Surface时,大多数人都会想到2015年Surface Book发布会结束时的Panos,将屏幕和键盘分离,在大家面前表演了一场视觉魔术。 Surfa

    06-21

  • 当生命走到尽头的时候,我们可能真的会看到“生命的大帐篷”

    当生命走到尽头的时候,我们可能真的会看到“生命的大帐篷”

    “我感觉特别平静,思绪很清晰。 过去的事情就像正在播放的电影一样,在我眼前闪现。 然而,大多数都是幸福的回忆,我现在还能感受到当时的喜悦心情。 ”这是我们经常听到的对濒死状态的描述。 生与死,是每个人这一生都会经历的事情。 然而,我们对死亡了解还不够。 当生命即

    06-21

  • 三星电子与现代汽车首次合作开发车载娱乐系统汽车芯片

    三星电子与现代汽车首次合作开发车载娱乐系统汽车芯片

    据韩国媒体报道,三星近日宣布将向现代汽车供应IVI处理器Exynos Auto V,以驱动现代汽车Motor的下一代车载信息娱乐系统,目标于今年正式供货。 据悉,Exynos Auto V的供货是三星与现代汽车在半导体领域的首次合作。 三星表示,Exynos Auto V 采用 ARM 最新的汽车 CPU 架构,

    06-06

  • 尚贤魔镜完成1亿美元B轮融资,

    尚贤魔镜完成1亿美元B轮融资,

    据投资界9月23日消息,尚贤魔镜近日完成1亿美元B轮融资,由贝恩互联网产业基金领投。 据了解,这是一个AI广告平台。 魔镜系列产品的逻辑是实时对比信息流广告将产生的新增用户与公司积累的真实活跃用户数据包,针对广告主的用户画像需求而形成的数据库通过其动态数据包进行大

    06-17

  • 高瓴再出手:今天这家公司暴涨60亿

    高瓴再出手:今天这家公司暴涨60亿

    高瓴再出手。 投资界获悉,昨晚(1月31日),绿叶制药宣布重大投资:高瓴资本及其基金高瓴新能源以24亿港元的价格两次投资绿叶制药,获得后者15.60%的股份。 ,成为继公司控股股东绿叶投资之后的第二大股东。 今日开盘,绿叶制药市值飙升60亿港元。 这家公司成立于2001年,其

    06-17

  • 红杉中国-红杉资本设立1000万元疫情防控专项基金,分批捐赠37万件急需医疗物资

    红杉中国-红杉资本设立1000万元疫情防控专项基金,分批捐赠37万件急需医疗物资

    近期,以武汉为中心的新型冠状病毒疫情牵动着全国人民的心,来自各地的医护人员全国各地人员紧急驰援湖北。 面对武汉医疗机构防护设备和医疗物资仍紧缺的紧张局面,红杉中国立即行动,设立1万人民防控新型肺炎疫情专项基金,并捐赠医用口罩、医用手套、专业消毒用品等医疗物资

    06-18

  • 存储变革:数据从核心到边缘,企业存储复兴

    存储变革:数据从核心到边缘,企业存储复兴

    每年创建、收集或复制的数据集合就是全球数据圈,到2020年将增长5倍以上。 IDC预测全球数据圈将从2018年的33ZB增长到2018年的ZB。 据雷锋网报道,2月21日,希捷科技“数字能源绽放——从边缘到核心——全球数据圈暨中国白皮书大会”正式召开。 本次会议由希捷科技主办,国际数

    06-18

  • 大牛车金融获1000万元天使轮投资,将继续拓展线下分行业务

    大牛车金融获1000万元天使轮投资,将继续拓展线下分行业务

    据投资界11月14日消息,大牛车金融(杭州车掌柜网络科技有限公司)完成万股融资-元天使轮融资,本轮融资由天策金科控股有限公司、北京乐享科技股份有限公司(境外纳斯达克上市公司)领投。 除线下网点营业点建设外,大牛车金融融资资金还将用于线上系统软件的开发建设,对接

    06-18

  • 起售价低于  30 万元,特斯拉 Model 3 是如何做到的?

    起售价低于 30 万元,特斯拉 Model 3 是如何做到的?

    起拍价不到30万元。 特斯拉 Model 3 是如何做到的? 2019年1月3日,特斯拉官方发布消息,宣布中国制造的特斯拉Model 3即将上市,将于1月7日交付;但最引人瞩目的还是价格——这款国产Model 3车型在享受国家新能源补贴和免购置税后售价50元起。 这是特斯拉首款起售价低于30万元

    06-17

  • AI如何赋能企业数字化转型?第四范式给出了自己的答案

    AI如何赋能企业数字化转型?第四范式给出了自己的答案

    2020年,中国人工智能的发展不再局限于算力、算法、数据等技术突破,而是从社会需求和行业应用的角度出发。 逐步深入特定行业;与此同时,在见证了人工智能作为前沿技术的巨大市场潜力后,整个市场也越来越关注人工智能如何赋能行业,从而走向商业化。 带着同样对这个问题的关

    06-18