首页 > 科技未来 > 内容

AGI快来了!人大多模态模型首次实现自主更新,照片视频生成超越Sora

发布于:2024-06-21 编辑:匿名 来源:网络

AGI(人工智能)是整个AI行业的圣杯。

前OpenAI 首席科学家 Ilya Sutskeve去年表达了一个观点:“只要我们能够很好地预测下一个代币,我们就可以帮助人类实现AGI。

”图灵奖得主、深度学习之父 Geoffrey Hinton、OpenAI CEO Sam Altman 认为,AGI 将在十年内甚至更早到来。

AGI不是终结,而是人类发展史上的新起点。

通向AGI的道路上需要考虑的因素有很多,中国的AI产业也是一股不可忽视的力量。

在4月27日举行的中关村论坛通用人工智能并行论坛上,中国人民大学旗下创业公司Sophon Engine隆重发布全新多模态大模型Awaker1.0,向AGI迈出了关键一步。

与于智子引擎上一代ChatImg序列模型相比,Awaker1.0采用了全新的MOE架构,并具有独立更新能力。

是业内首款实现“真正”自主更新的多模联运大车型。

在视觉生成方面,Awaker1.0采用了完全自主研发的视频生成基础VDT,在照片视频生成方面取得了比Sora更好的效果,打破了大模型落地的“最后一公里”困难。

Awaker1.0是一个超融合视觉理解和视觉生成的大型多模态模型。

在理解方面,Awaker1.0与数字世界和现实世界进行交互,在任务执行过程中将场景行为数据反馈给模型,实现持续更新和训练;在生成端,Awaker1.0可以生成高质量的多模态内容,模拟现实世界,为理解端模型提供更多的训练数据。

尤为重要的是,由于其“真正”的自主更新能力,Awaker1.0适用于更广泛的行业场景,可以解决更复杂的实际任务,例如AI Agent、体现智能、综合管理、安全检查等Awaker的MOE基础模型在理解方面,Awaker1.0的基础模型主要解决多模态多任务预训练中冲突严重的问题。

受益于精心设计的多任务MOE架构,Awaker1.0的基础模型不仅可以继承Sophon引擎上一代多模态大模型ChatImg的基本能力,还可以学习每个多模态所需的独特能力任务。

与上一代多模态大模型ChatImg相比,Awaker1.0的基础模型能力在多个任务上都有了很大的提升。

针对主流多模态评测列表中评测数据泄露的问题,Sophon Engine公开了一套严格的标准来构建自己的评测集,其中大部分测试图片来自个人手机相册。

在这个多模态评测集中,对Awaker1.0以及国内外最先进的三个多模态大模型进行了公平的人工评测。

详细评价结果如下表所示。

请注意,GPT-4V 和 Intern-VL 不直接支持检测任务。

他们的检测结果是通过要求模型使用语言来描述物体方向来获得的。

我们发现Awaker1.0的基础模型在视觉问答和商业应用任务上超越了GPT-4V、Qwen-VL-Max和Intern-VL,并且在描述、推理和检测任务上也取得了第二好的成绩。

总体而言,Yao的平均得分为1.0,超过了国内外最先进的三个模型,验证了多任务MOE架构的有效性。

下面举几个具体例子进行对比分析。

从这些对比示例中可以看出,Awaker1.0能够正确回答计数问题和OCR问题,而其他三个模型均回答错误(或部分错误)。

在详细描述任务中,Qwen-VL-Max更容易产生幻觉,而Intern-VL可以准确描述图片内容,但在一些细节上不够准确和具体。

GPT-4V和Awaker1.0不仅可以详细描述图片内容,还可以准确识别图片中的细节,比如图中所示的可口可乐。

Awaker+具身智能:迈向AGI 多模态大模型和具身智能的结合是非常自然的,因为多模态大模型的视觉理解能力可以很自然地与具身智能的相机结合起来。

在人工智能领域,“多模态大模型+具身智能”甚至被认为是实现通用人工智能(AGI)的可行路径。

一方面,人们期望体现智能具有适应性,即智能体能够通过不断学习来适应不断变化的应用环境。

它不仅能够在已知的多模态任务上做得越来越好,而且能够快速适应未知的多模态任务。

另一方面,人们也期望具身智能具有真正的创造力,希望它能够通过对环境的自主探索,发现新的策略和解决方案,探索人工智能能力的边界。

通过使用多模态大模型作为具身智能的“大脑”,可以极大地提高具身智能的适应性和创造力,最终逼近AGI的门槛(甚至实现AGI)。

然而,现有的大型多模态模型存在两个明显的问题:一是模型的迭代更新周期长,需要大量的人力和财力投入;其次,模型的训练数据全部来源于现有数据,模型无法持续获取大量新知识。

虽然也可以通过RAG和长上下文注入连续的新知识,但是多模态大模型本身并不会学习这些新知识,而且这两种修复方法也会带来额外的问题。

总之,目前的大型多模态模型在实际应用场景中的适应性并不强,更谈不上创造性,导致在行业实施时遇到各种困难。

Sophon Engine此次发布的Awaker1.0是全球首个具有自主更新机制的多模态大模型,可作为体现智能的“大脑”。

Awaker1.0的自主更新机制包括主动数据生成、模型反射与评估、模型持续更新三项关键技术。

与所有其他多模态大模型不同,Awaker1.0是“活的”,其参数可以实时持续更新。

从上面的框架图可以看出,Awaker1.0可以与各种智能设备结合,通过智能设备观察世界,产生动作意图,并自动构造指令来控制智能设备完成各种动作。

智能设备在完成各种动作后会自动产生各种反馈。

Awaker1.0可以从这些动作和反馈中获取有效的训练数据,不断更新自身,不断强化模型的各种能力。

以新知识的注入为例,Awaker1.0可以不断学习互联网上最新的新闻信息,并根据新学习的新闻信息回答各种复杂的问题。

与传统的RAG和长上下文方法不同,Awaker1.0能够真正学习新知识并将其“记忆”在模型的参数上。

从上面的例子可以看出,在连续三天的自我更新过程中,Awaker1.0能够每天学习当天的新闻信息,并在回答问题时准确地说出相应的信息。

同时,Awaker1.0也不会忘记在不断学习的过程中所学到的知识。

例如,智杰S7的知识2天后Awaker1.0仍然记得或理解。

Awaker1.0还可以与各种智能设备结合,实现云边协同。

Awaker1.0部署在云端作为“大脑”,控制各种边缘智能设备执行各种任务。

边缘智能设备执行各种任务时获得的反馈将不断传输回Awaker1.0,使其能够不断获取训练数据并不断更新自身。

上述云边协同的技术路线已在智能电网巡检、智慧城市等应用场景得到应用。

取得了远优于传统小模型的识别效果,得到了行业客户的高度认可。

真实世界模拟器:VDTAwaker1.0的生成端是Sophon Engine自主研发的类Sora视频生成基础VDT,可以作为真实世界模拟器使用。

VDT的研究成果于2016年5月发布在arXiv网站上,比OpenAI发布Sora早10个月。

VDT的学术论文已被国际人工智能顶级会议ICLR接收。

视频生成基础VDT的创新主要包括以下几个方面:将Transformer技术应用于基于扩散的视频生成,显示了Transformer在视频生成领域的巨大潜力。

VDT 的优势在于其出色的时间相关捕获能力,能够生成时间连贯的视频帧,包括模拟三维物体随时间的物理动态。

提出了一种统一的时空掩模建模机制,使VDT能够处理多种视频生成任务,实现了该技术的广泛应用。

VDT灵活的条件信息处理方法,例如简单的令牌空间拼接,有效地统一了不同长度和模态的信息。

同时,通过与时空掩模建模机制相结合,VDT成为一种通用的视频扩散工具,可应用于无条件生成、视频后续帧预测、帧插值、图片生成视频以及视频帧不修改模型结构。

完成等视频生成任务。

Sophon引擎团队专注于探索VDT对简单物理定律的模拟,并在Physion数据集上训练VDT。

在下面的例子中,我们发现VDT成功地模拟了物理过程,例如球沿着抛物线轨迹移动以及球在平面上滚动并与其他物体碰撞。

同时,从第2行的第二个例子中也可以看出,VDT捕捉到了球的速度和动量,因为球由于冲击力不够而没有撞倒柱子。

这证明 Transformer 架构可以学习某些物理定律。

他们还对照片视频生成任务进行了深入的探索。

AGI快来了!人大多模态模型首次实现自主更新,照片视频生成超越Sora

这个任务对视频生成的质量有非常高的要求,因为我们天生对人脸和人物的动态变化更加敏感。

鉴于这项任务的特殊性,研究人员需要将 VDT(或 Sora)与可控生成相结合,以解决照片视频生成的挑战。

目前Sophon引擎已经突破了照片视频生成的大部分关键技术,取得了比Sora更好的照片视频生成质量。

Sophon引擎将持续优化人像可控生成算法,同时也在积极探索商业化。

目前已找到确认的商业落地场景,有望在不久的将来打破大机型“最后一公里”落地难点。

VDT将成为解决多模态大模型数据源问题的有力工具。

利用视频生成,VDT将能够模拟现实世界,进一步提高视觉数据生产效率,为Awaker多模态大模型的自主更新提供帮助。

Awaker1.0是Sophon引擎团队迈向“实现AGI”终极目标的关键一步。

Sophon Engine告诉APPSO,团队认为AI的自我探索、自我反思等自主学习能力是智能水平的重要评价标准,与参数尺度的不断增加(Scaling Law)同样重要。

Awaker1.0实现了“数据主动生成、模型反思与评估、模型持续更新”等关键技术框架,在理解端和生成端都实现了突破。

有望加速多模态大模型产业发展,最终让人类实现AGI。

AGI快来了!人大多模态模型首次实现自主更新,照片视频生成超越Sora

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 威海经开区设立5亿元政府引导基金

    威海经开区设立5亿元政府引导基金

    投资界(ID:pedaily)8月24日消息,8月23日,经开区举行政府引导基金投资签约仪式。 经济发展控股集团与威海杰诺曼自动化有限公司、威海艾迪克电子科技有限公司、山东光瑞电力科技有限公司等十家企业正式签约。 10家企业将获得总计1万元以上的政府引导资金。 此次签约,标志

    06-18

  • 智能客服在银行数字化转型中的关键作用

    智能客服在银行数字化转型中的关键作用

    .wp-block-column h3{margin-left:0} 随着技术的不断发展和消费者需求的日益多元化,银行业正在经历深刻的变革数字化转型。 在这一转型过程中,智能客服系统作为银行与客户之间的重要纽带,正逐渐展现出其不可替代的价值。 银行数字化转型的必要性:数字化时代,客户对银行服

    06-17

  • 韩媒:三星电子社长访美寻求手机AP供应被拒绝,反映出购买力下降

    韩媒:三星电子社长访美寻求手机AP供应被拒绝,反映出购买力下降

    消息人士透露,三星电子社长兼移动通信部门负责人卢泰文两次前往美国今年与主要零部件制造商见面。 确保智能手机生产所需的应用处理器的额外供应被拒绝。 这不仅显示了当前全球芯片短缺的严重性,也显示了三星移动在全球智能手机供应链中购买力的减弱。 据 TheElec 报道,该

    06-08

  • 无邦完成数千万元A轮融资,打造舞蹈潮流综合体

    无邦完成数千万元A轮融资,打造舞蹈潮流综合体

    据投资界4月16日消息,近日,无邦宣布完成数千万元A轮融资。 投资方为沃府资本、浙江文化产业成长基金。    据悉,本轮融资将用于加强品牌建设、生产优质IP内容、拓展舞蹈相关产业。   舞邦成立于2007年,是一家专注于城市舞蹈文化推广与教学的公司。 城市舞蹈兴起于美国

    06-18

  • 苏州将迎来超千亿资金中的资金

    苏州将迎来超千亿资金中的资金

    投资界(ID:pedaily)8月3日报道,今年下半年,总计超千亿资金中的资金将落户苏州,其中包括多只基金规模超百亿。 基金。 “欢迎大家常来苏州,深入了解苏州。 ”苏州市委常委、市长副手顾海东在7月30日举办的“中国基金中基金50人论坛”上发出邀请。 近年来,苏州已成为PE/

    06-18

  • 比亚迪:6月累计产量51,152辆,同比增长60.12%

    比亚迪:6月累计产量51,152辆,同比增长60.12%

    比亚迪:6月累计产量2辆,今年累计产量253,900辆,同比增长60.12%; 6月共销售5辆,今年累计销量2467万辆,同比增长55.51%。

    06-18

  • BNEF 的净零目标要求到 2050 年每年新增 455GW 太阳能装机容量 20TW

    BNEF 的净零目标要求到 2050 年每年新增 455GW 太阳能装机容量 20TW

    彭博新能源财经 (BNEF) 的最新分析发现,为了到 2020 年实现净零目标,至少需要新增 1GW 太阳能产能到本十年末,每年都需要光伏发电容量。 该研究咨询公司发布了年度《新能源展望》报告,该报告将全球向净零排放状态的过渡分为三个具体轨迹,即“绿色”、“红色”和“灰色”

    06-08

  • 徐旭初:数字乡村建设成为乡村振兴新引擎

    徐旭初:数字乡村建设成为乡村振兴新引擎

    “数字乡村建设发展将成为引领乡村振兴的现实热点,也将成为县域经济跨越式发展的强大力量。 ” 6月9日,浙江大学中国农民合作组织研究中心、杭州电子科技大学法学院院长教授、博士生导师徐旭初在“国家数字生态系统创新发展峰会”上发表主旨演讲。 浙江大学、杭州电子科技大

    06-18

  • 海外智能在线客服在跨境海外企业中的应用

    海外智能在线客服在跨境海外企业中的应用

    .wp-block-column h3{margin-left:0} 1.引言随着全球化的加速和电子商务的蓬勃发展,越来越多的更多企业开始拓展海外市场,跨境海外扩张已成趋势。 然而,企业在走出去的过程中,面临着语言、文化、时差等各种挑战。 如何提供高效、优质的客户服务成为关键。 海外智能在线客服

    06-18

  • 一季度共有19家ST公司获得重要股东增持

    一季度共有19家ST公司获得重要股东增持

    今年一季度共有19家ST公司获得重要股东增持。 截至4月9日收盘,已有8家公司股价收于2元以下,其中*ST信谊、*ST宏图股价跌破1.5元。 从增持金额来看,超过一半的公司(11家)花费在1000万元以上,ST庞大、ST洛克甚至收到股东数亿元增持。 从增持金额来看,原国内汽车经销商龙头

    06-18

  • 三星Note 10+发布:产品很惊艳,5G真香,但价格太感人

    三星Note 10+发布:产品很惊艳,5G真香,但价格太感人

    进入2019年,三星智能手机业务出现了市场格局严重失衡的情况。 一方面,三星仍然是全球最大的智能手机制造商,市场份额高达22.7%(根据IDC最新数据);另一方面,在全球最大的智能手机市场——中国市场,三星的存在感微乎其微,市场份额仅为0.7%(根据Strategy Analytics公布

    06-18

  • 景林资产大幅减持拼多多,拼多多榜首位置下滑

    景林资产大幅减持拼多多,拼多多榜首位置下滑

    去年四季度刚刚将拼多多持股翻倍至最高持股的景林,果断将持股过半的拼多多一季度收益翻倍。 减持。 一季报显示,景林资产在美股减持最多的企业之一,拼多多一季度减持近万股至8000股。 截至本季度末,其市值为3.5亿美元。 拼多多也从景林资产第一名的位置上跌落。 达到第二大

    06-18