首页 > 科技未来 > 内容

AGI快来了!人大多模态模型首次实现自主更新,照片视频生成超越Sora

发布于:2024-06-21 编辑:匿名 来源:网络

AGI(人工智能)是整个AI行业的圣杯。

前OpenAI 首席科学家 Ilya Sutskeve去年表达了一个观点:“只要我们能够很好地预测下一个代币,我们就可以帮助人类实现AGI。

”图灵奖得主、深度学习之父 Geoffrey Hinton、OpenAI CEO Sam Altman 认为,AGI 将在十年内甚至更早到来。

AGI不是终结,而是人类发展史上的新起点。

通向AGI的道路上需要考虑的因素有很多,中国的AI产业也是一股不可忽视的力量。

在4月27日举行的中关村论坛通用人工智能并行论坛上,中国人民大学旗下创业公司Sophon Engine隆重发布全新多模态大模型Awaker1.0,向AGI迈出了关键一步。

与于智子引擎上一代ChatImg序列模型相比,Awaker1.0采用了全新的MOE架构,并具有独立更新能力。

是业内首款实现“真正”自主更新的多模联运大车型。

在视觉生成方面,Awaker1.0采用了完全自主研发的视频生成基础VDT,在照片视频生成方面取得了比Sora更好的效果,打破了大模型落地的“最后一公里”困难。

Awaker1.0是一个超融合视觉理解和视觉生成的大型多模态模型。

在理解方面,Awaker1.0与数字世界和现实世界进行交互,在任务执行过程中将场景行为数据反馈给模型,实现持续更新和训练;在生成端,Awaker1.0可以生成高质量的多模态内容,模拟现实世界,为理解端模型提供更多的训练数据。

尤为重要的是,由于其“真正”的自主更新能力,Awaker1.0适用于更广泛的行业场景,可以解决更复杂的实际任务,例如AI Agent、体现智能、综合管理、安全检查等Awaker的MOE基础模型在理解方面,Awaker1.0的基础模型主要解决多模态多任务预训练中冲突严重的问题。

受益于精心设计的多任务MOE架构,Awaker1.0的基础模型不仅可以继承Sophon引擎上一代多模态大模型ChatImg的基本能力,还可以学习每个多模态所需的独特能力任务。

与上一代多模态大模型ChatImg相比,Awaker1.0的基础模型能力在多个任务上都有了很大的提升。

针对主流多模态评测列表中评测数据泄露的问题,Sophon Engine公开了一套严格的标准来构建自己的评测集,其中大部分测试图片来自个人手机相册。

在这个多模态评测集中,对Awaker1.0以及国内外最先进的三个多模态大模型进行了公平的人工评测。

详细评价结果如下表所示。

请注意,GPT-4V 和 Intern-VL 不直接支持检测任务。

他们的检测结果是通过要求模型使用语言来描述物体方向来获得的。

我们发现Awaker1.0的基础模型在视觉问答和商业应用任务上超越了GPT-4V、Qwen-VL-Max和Intern-VL,并且在描述、推理和检测任务上也取得了第二好的成绩。

总体而言,Yao的平均得分为1.0,超过了国内外最先进的三个模型,验证了多任务MOE架构的有效性。

下面举几个具体例子进行对比分析。

从这些对比示例中可以看出,Awaker1.0能够正确回答计数问题和OCR问题,而其他三个模型均回答错误(或部分错误)。

在详细描述任务中,Qwen-VL-Max更容易产生幻觉,而Intern-VL可以准确描述图片内容,但在一些细节上不够准确和具体。

GPT-4V和Awaker1.0不仅可以详细描述图片内容,还可以准确识别图片中的细节,比如图中所示的可口可乐。

Awaker+具身智能:迈向AGI 多模态大模型和具身智能的结合是非常自然的,因为多模态大模型的视觉理解能力可以很自然地与具身智能的相机结合起来。

在人工智能领域,“多模态大模型+具身智能”甚至被认为是实现通用人工智能(AGI)的可行路径。

一方面,人们期望体现智能具有适应性,即智能体能够通过不断学习来适应不断变化的应用环境。

它不仅能够在已知的多模态任务上做得越来越好,而且能够快速适应未知的多模态任务。

另一方面,人们也期望具身智能具有真正的创造力,希望它能够通过对环境的自主探索,发现新的策略和解决方案,探索人工智能能力的边界。

通过使用多模态大模型作为具身智能的“大脑”,可以极大地提高具身智能的适应性和创造力,最终逼近AGI的门槛(甚至实现AGI)。

然而,现有的大型多模态模型存在两个明显的问题:一是模型的迭代更新周期长,需要大量的人力和财力投入;其次,模型的训练数据全部来源于现有数据,模型无法持续获取大量新知识。

虽然也可以通过RAG和长上下文注入连续的新知识,但是多模态大模型本身并不会学习这些新知识,而且这两种修复方法也会带来额外的问题。

总之,目前的大型多模态模型在实际应用场景中的适应性并不强,更谈不上创造性,导致在行业实施时遇到各种困难。

Sophon Engine此次发布的Awaker1.0是全球首个具有自主更新机制的多模态大模型,可作为体现智能的“大脑”。

Awaker1.0的自主更新机制包括主动数据生成、模型反射与评估、模型持续更新三项关键技术。

与所有其他多模态大模型不同,Awaker1.0是“活的”,其参数可以实时持续更新。

从上面的框架图可以看出,Awaker1.0可以与各种智能设备结合,通过智能设备观察世界,产生动作意图,并自动构造指令来控制智能设备完成各种动作。

智能设备在完成各种动作后会自动产生各种反馈。

Awaker1.0可以从这些动作和反馈中获取有效的训练数据,不断更新自身,不断强化模型的各种能力。

以新知识的注入为例,Awaker1.0可以不断学习互联网上最新的新闻信息,并根据新学习的新闻信息回答各种复杂的问题。

与传统的RAG和长上下文方法不同,Awaker1.0能够真正学习新知识并将其“记忆”在模型的参数上。

从上面的例子可以看出,在连续三天的自我更新过程中,Awaker1.0能够每天学习当天的新闻信息,并在回答问题时准确地说出相应的信息。

同时,Awaker1.0也不会忘记在不断学习的过程中所学到的知识。

例如,智杰S7的知识2天后Awaker1.0仍然记得或理解。

Awaker1.0还可以与各种智能设备结合,实现云边协同。

Awaker1.0部署在云端作为“大脑”,控制各种边缘智能设备执行各种任务。

边缘智能设备执行各种任务时获得的反馈将不断传输回Awaker1.0,使其能够不断获取训练数据并不断更新自身。

上述云边协同的技术路线已在智能电网巡检、智慧城市等应用场景得到应用。

取得了远优于传统小模型的识别效果,得到了行业客户的高度认可。

真实世界模拟器:VDTAwaker1.0的生成端是Sophon Engine自主研发的类Sora视频生成基础VDT,可以作为真实世界模拟器使用。

VDT的研究成果于2016年5月发布在arXiv网站上,比OpenAI发布Sora早10个月。

VDT的学术论文已被国际人工智能顶级会议ICLR接收。

视频生成基础VDT的创新主要包括以下几个方面:将Transformer技术应用于基于扩散的视频生成,显示了Transformer在视频生成领域的巨大潜力。

VDT 的优势在于其出色的时间相关捕获能力,能够生成时间连贯的视频帧,包括模拟三维物体随时间的物理动态。

提出了一种统一的时空掩模建模机制,使VDT能够处理多种视频生成任务,实现了该技术的广泛应用。

VDT灵活的条件信息处理方法,例如简单的令牌空间拼接,有效地统一了不同长度和模态的信息。

同时,通过与时空掩模建模机制相结合,VDT成为一种通用的视频扩散工具,可应用于无条件生成、视频后续帧预测、帧插值、图片生成视频以及视频帧不修改模型结构。

完成等视频生成任务。

Sophon引擎团队专注于探索VDT对简单物理定律的模拟,并在Physion数据集上训练VDT。

在下面的例子中,我们发现VDT成功地模拟了物理过程,例如球沿着抛物线轨迹移动以及球在平面上滚动并与其他物体碰撞。

同时,从第2行的第二个例子中也可以看出,VDT捕捉到了球的速度和动量,因为球由于冲击力不够而没有撞倒柱子。

这证明 Transformer 架构可以学习某些物理定律。

他们还对照片视频生成任务进行了深入的探索。

AGI快来了!人大多模态模型首次实现自主更新,照片视频生成超越Sora

这个任务对视频生成的质量有非常高的要求,因为我们天生对人脸和人物的动态变化更加敏感。

鉴于这项任务的特殊性,研究人员需要将 VDT(或 Sora)与可控生成相结合,以解决照片视频生成的挑战。

目前Sophon引擎已经突破了照片视频生成的大部分关键技术,取得了比Sora更好的照片视频生成质量。

Sophon引擎将持续优化人像可控生成算法,同时也在积极探索商业化。

目前已找到确认的商业落地场景,有望在不久的将来打破大机型“最后一公里”落地难点。

VDT将成为解决多模态大模型数据源问题的有力工具。

利用视频生成,VDT将能够模拟现实世界,进一步提高视觉数据生产效率,为Awaker多模态大模型的自主更新提供帮助。

Awaker1.0是Sophon引擎团队迈向“实现AGI”终极目标的关键一步。

Sophon Engine告诉APPSO,团队认为AI的自我探索、自我反思等自主学习能力是智能水平的重要评价标准,与参数尺度的不断增加(Scaling Law)同样重要。

Awaker1.0实现了“数据主动生成、模型反思与评估、模型持续更新”等关键技术框架,在理解端和生成端都实现了突破。

有望加速多模态大模型产业发展,最终让人类实现AGI。

AGI快来了!人大多模态模型首次实现自主更新,照片视频生成超越Sora

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • Steam即将上线全民VR录屏工具VRCapture

    Steam即将上线全民VR录屏工具VRCapture

    近日,国内首个亲子科普音频节目——科学队长正式上线。 这是中国最具影响力的科普教育平台“知识分子”推出的音频节目。 该付费产品也是国内首款邀请一线科学家担任主讲人的音频产品。 北京天文馆天文篇馆长,天文学家朱进为少儿讲课《天文学家讲述宇宙奥秘》受到了很多关注

    06-18

  • 哈佛教授回国扎根脑科学创业再获5亿元A轮融资

    哈佛教授回国扎根脑科学创业再获5亿元A轮融资

    上头条8月30日,脑科公司北京优脑银河科技有限公司宣布完成5亿元融资人民币A轮融资。 本轮融资由本草资本领投,禾堂创投、锋锐资本、光速中国跟投。 据悉,友脑银河此前已于2019年9月完成由峰瑞资本领投的万元天使轮融资,2019年1月完成数亿元Pre-A轮融资,随后又完成多轮增发

    06-17

  • 从无限战争到有限合作,“头藤战争”进入下半场

    从无限战争到有限合作,“头藤战争”进入下半场

    经过多年的明争暗斗,字节和腾讯正在互相远离“枪口”,伸出橄榄枝。 据《晚点LatePost》报道,Byte旗下游戏部门朝夕光年正在与腾讯洽谈销售多款游戏并提供大幅折扣。 兆禧光年随后回应称,相关团队正在与多个买家进行谈判,尚未与腾讯敲定任何交易。 如果双方最终达成协议,

    06-17

  • 360正式进军汽车制造,战略领投“哪吒汽车”D轮融资

    360正式进军汽车制造,战略领投“哪吒汽车”D轮融资

    哪吒汽车已启动D轮融资,融资金额约30亿元。 互联网安全公司360战略领投本轮融资,具体金额未透露。 全部投资完成后,有望成为哪吒汽车第二大股东。

    06-17

  • 俄罗斯搜索引擎Yandex计划发起IPO融资15亿美元

    俄罗斯搜索引擎Yandex计划发起IPO融资15亿美元

    外媒报道,俄罗斯领先的搜索引擎、俄罗斯最大的互联网公司Yandex据称正在考虑首次公开募股,让该公司筹集1十亿英镑(15.6 亿美元)。 。 有报道称,Yandex 正在考虑明年初在英国上市,但尚未确定在美国纳斯达克市场的选择。   在俄罗斯互联网巨头 Mail.ru成功上市后,Yande

    06-18

  • “短视频首股”快手IPO期间,富途与摩根士丹利共同担任承销商

    “短视频首股”快手IPO期间,富途与摩根士丹利共同担任承销商

    1月26日,“短视频首股”快手科技正式启动IPO。 本次拟发行3.65亿股,发行区间为港元,计划募集资金54亿美元。 富途、摩根士丹利、美银证券等共同担任快手科技的承销商。 从招股书披露的数据来看,快手的数据可以说是非常亮眼。 艾瑞咨询数据显示,全球范围内,快手是虚拟礼物

    06-18

  • 一季度全球PC出货量猛增32%,创21年来最快增速

    一季度全球PC出货量猛增32%,创21年来最快增速

    市场研究公司Gartner周一发布的报告显示,今年一季度全球个人电脑(PC)出货量达1万台,同比增长32%。 %,这是自 Gartner 2016 年开始跟踪该数据以来最快的同比增长率。

    06-18

  • 罗莱人寿:上半年净利润2.5亿元-2.92亿元,同比增长50%-75%

    罗莱人寿:上半年净利润2.5亿元-2.92亿元,同比增长50%-75%

    罗莱人寿发布半年度业绩预告,预计上半年实现净利润2.5亿元-2.92亿元,同比增长50%-75%。 增长50%-75%。 报告期内,国内经济形势好转,服装家纺消费市场呈现恢复性增长。 上半年,公司抓住销售旺季,充分利用春节、五一假期、年中购物节等节庆时机开展品牌推广和营销活动,取

    06-18

  • 【资讯周报】本周大大小小的科技事件回顾(3.4-3.8)

    【资讯周报】本周大大小小的科技事件回顾(3.4-3.8)

    阿里云助力星图比特打造出版媒体赛道AI原生应用——用高质量算力探索AIGC创新产品电力与生态资源>>>>点击进入 去年,国家网信办等七部门联合发布了全球首个AIGC监管法律文件《生成式人工智能服务管理暂行办法》。 近日,星图比特创建的大型人工智能语言模型“奇点华章”完成注

    06-18

  • 教育信息服务商“世纪海航”完成数千万元A轮融资

    教育信息服务商“世纪海航”完成数千万元A轮融资

    据投资界5月4日消息,教育信息服务商世纪海航透露已完成数千万元A轮融资完成A轮融资,由时光龙资本领投,聚熙控股和Inno Fund合伙人刘怀宇领投。 据了解,本轮融资将进一步吸引优秀人才,加大对AI技术的投入,开发更多智能教育信息产品,打造新一代智慧学校。   世纪海航成

    06-17

  • 苏州发布两只产业基金,规模10亿

    苏州发布两只产业基金,规模10亿

    投资界消息(ID:pedaily),1月25日,总规模超10亿的未来创一号基金和苏创光电创新产业基金发布以及一批合作项目的集中签约和落户,城区之间协同联动,政企联动,搭建产业与资本融合的桥梁,为苏州推进新型工业化注入新动能。 苏创光电创新产业基金、创未来一号基金发布,加

    06-17

  • 两个月融资两轮,飞翔航空获近亿元A+轮融资

    两个月融资两轮,飞翔航空获近亿元A+轮融资

    投资圈(ID:pedaily)据4月29日消息,中国领先的低空经济公司飞翔航空宣布成功完成近亿元。 人民币A+轮融资。 本轮融资由华强资本领投,经开资本跟投。 更新资本担任本轮融资独家财务顾问。 本轮融资将用于继续推进VE25 X1验证机的试飞和测试、产品AC研发和制造、加快型号开

    06-18