Steam即将上线全民VR录屏工具VRCapture
06-18
AGI(人工智能)是整个AI行业的圣杯。
前OpenAI 首席科学家 Ilya Sutskeve去年表达了一个观点:“只要我们能够很好地预测下一个代币,我们就可以帮助人类实现AGI。
”图灵奖得主、深度学习之父 Geoffrey Hinton、OpenAI CEO Sam Altman 认为,AGI 将在十年内甚至更早到来。
AGI不是终结,而是人类发展史上的新起点。
通向AGI的道路上需要考虑的因素有很多,中国的AI产业也是一股不可忽视的力量。
在4月27日举行的中关村论坛通用人工智能并行论坛上,中国人民大学旗下创业公司Sophon Engine隆重发布全新多模态大模型Awaker1.0,向AGI迈出了关键一步。
与于智子引擎上一代ChatImg序列模型相比,Awaker1.0采用了全新的MOE架构,并具有独立更新能力。
是业内首款实现“真正”自主更新的多模联运大车型。
在视觉生成方面,Awaker1.0采用了完全自主研发的视频生成基础VDT,在照片视频生成方面取得了比Sora更好的效果,打破了大模型落地的“最后一公里”困难。
Awaker1.0是一个超融合视觉理解和视觉生成的大型多模态模型。
在理解方面,Awaker1.0与数字世界和现实世界进行交互,在任务执行过程中将场景行为数据反馈给模型,实现持续更新和训练;在生成端,Awaker1.0可以生成高质量的多模态内容,模拟现实世界,为理解端模型提供更多的训练数据。
尤为重要的是,由于其“真正”的自主更新能力,Awaker1.0适用于更广泛的行业场景,可以解决更复杂的实际任务,例如AI Agent、体现智能、综合管理、安全检查等Awaker的MOE基础模型在理解方面,Awaker1.0的基础模型主要解决多模态多任务预训练中冲突严重的问题。
受益于精心设计的多任务MOE架构,Awaker1.0的基础模型不仅可以继承Sophon引擎上一代多模态大模型ChatImg的基本能力,还可以学习每个多模态所需的独特能力任务。
与上一代多模态大模型ChatImg相比,Awaker1.0的基础模型能力在多个任务上都有了很大的提升。
针对主流多模态评测列表中评测数据泄露的问题,Sophon Engine公开了一套严格的标准来构建自己的评测集,其中大部分测试图片来自个人手机相册。
在这个多模态评测集中,对Awaker1.0以及国内外最先进的三个多模态大模型进行了公平的人工评测。
详细评价结果如下表所示。
请注意,GPT-4V 和 Intern-VL 不直接支持检测任务。
他们的检测结果是通过要求模型使用语言来描述物体方向来获得的。
我们发现Awaker1.0的基础模型在视觉问答和商业应用任务上超越了GPT-4V、Qwen-VL-Max和Intern-VL,并且在描述、推理和检测任务上也取得了第二好的成绩。
。
总体而言,Yao的平均得分为1.0,超过了国内外最先进的三个模型,验证了多任务MOE架构的有效性。
下面举几个具体例子进行对比分析。
从这些对比示例中可以看出,Awaker1.0能够正确回答计数问题和OCR问题,而其他三个模型均回答错误(或部分错误)。
在详细描述任务中,Qwen-VL-Max更容易产生幻觉,而Intern-VL可以准确描述图片内容,但在一些细节上不够准确和具体。
GPT-4V和Awaker1.0不仅可以详细描述图片内容,还可以准确识别图片中的细节,比如图中所示的可口可乐。
Awaker+具身智能:迈向AGI 多模态大模型和具身智能的结合是非常自然的,因为多模态大模型的视觉理解能力可以很自然地与具身智能的相机结合起来。
在人工智能领域,“多模态大模型+具身智能”甚至被认为是实现通用人工智能(AGI)的可行路径。
一方面,人们期望体现智能具有适应性,即智能体能够通过不断学习来适应不断变化的应用环境。
它不仅能够在已知的多模态任务上做得越来越好,而且能够快速适应未知的多模态任务。
。
另一方面,人们也期望具身智能具有真正的创造力,希望它能够通过对环境的自主探索,发现新的策略和解决方案,探索人工智能能力的边界。
通过使用多模态大模型作为具身智能的“大脑”,可以极大地提高具身智能的适应性和创造力,最终逼近AGI的门槛(甚至实现AGI)。
然而,现有的大型多模态模型存在两个明显的问题:一是模型的迭代更新周期长,需要大量的人力和财力投入;其次,模型的训练数据全部来源于现有数据,模型无法持续获取大量新知识。
虽然也可以通过RAG和长上下文注入连续的新知识,但是多模态大模型本身并不会学习这些新知识,而且这两种修复方法也会带来额外的问题。
总之,目前的大型多模态模型在实际应用场景中的适应性并不强,更谈不上创造性,导致在行业实施时遇到各种困难。
Sophon Engine此次发布的Awaker1.0是全球首个具有自主更新机制的多模态大模型,可作为体现智能的“大脑”。
Awaker1.0的自主更新机制包括主动数据生成、模型反射与评估、模型持续更新三项关键技术。
与所有其他多模态大模型不同,Awaker1.0是“活的”,其参数可以实时持续更新。
从上面的框架图可以看出,Awaker1.0可以与各种智能设备结合,通过智能设备观察世界,产生动作意图,并自动构造指令来控制智能设备完成各种动作。
智能设备在完成各种动作后会自动产生各种反馈。
Awaker1.0可以从这些动作和反馈中获取有效的训练数据,不断更新自身,不断强化模型的各种能力。
以新知识的注入为例,Awaker1.0可以不断学习互联网上最新的新闻信息,并根据新学习的新闻信息回答各种复杂的问题。
与传统的RAG和长上下文方法不同,Awaker1.0能够真正学习新知识并将其“记忆”在模型的参数上。
从上面的例子可以看出,在连续三天的自我更新过程中,Awaker1.0能够每天学习当天的新闻信息,并在回答问题时准确地说出相应的信息。
同时,Awaker1.0也不会忘记在不断学习的过程中所学到的知识。
例如,智杰S7的知识2天后Awaker1.0仍然记得或理解。
Awaker1.0还可以与各种智能设备结合,实现云边协同。
Awaker1.0部署在云端作为“大脑”,控制各种边缘智能设备执行各种任务。
边缘智能设备执行各种任务时获得的反馈将不断传输回Awaker1.0,使其能够不断获取训练数据并不断更新自身。
上述云边协同的技术路线已在智能电网巡检、智慧城市等应用场景得到应用。
取得了远优于传统小模型的识别效果,得到了行业客户的高度认可。
真实世界模拟器:VDTAwaker1.0的生成端是Sophon Engine自主研发的类Sora视频生成基础VDT,可以作为真实世界模拟器使用。
VDT的研究成果于2016年5月发布在arXiv网站上,比OpenAI发布Sora早10个月。
VDT的学术论文已被国际人工智能顶级会议ICLR接收。
视频生成基础VDT的创新主要包括以下几个方面:将Transformer技术应用于基于扩散的视频生成,显示了Transformer在视频生成领域的巨大潜力。
VDT 的优势在于其出色的时间相关捕获能力,能够生成时间连贯的视频帧,包括模拟三维物体随时间的物理动态。
提出了一种统一的时空掩模建模机制,使VDT能够处理多种视频生成任务,实现了该技术的广泛应用。
VDT灵活的条件信息处理方法,例如简单的令牌空间拼接,有效地统一了不同长度和模态的信息。
同时,通过与时空掩模建模机制相结合,VDT成为一种通用的视频扩散工具,可应用于无条件生成、视频后续帧预测、帧插值、图片生成视频以及视频帧不修改模型结构。
完成等视频生成任务。
Sophon引擎团队专注于探索VDT对简单物理定律的模拟,并在Physion数据集上训练VDT。
在下面的例子中,我们发现VDT成功地模拟了物理过程,例如球沿着抛物线轨迹移动以及球在平面上滚动并与其他物体碰撞。
同时,从第2行的第二个例子中也可以看出,VDT捕捉到了球的速度和动量,因为球由于冲击力不够而没有撞倒柱子。
这证明 Transformer 架构可以学习某些物理定律。
他们还对照片视频生成任务进行了深入的探索。

这个任务对视频生成的质量有非常高的要求,因为我们天生对人脸和人物的动态变化更加敏感。
鉴于这项任务的特殊性,研究人员需要将 VDT(或 Sora)与可控生成相结合,以解决照片视频生成的挑战。
目前Sophon引擎已经突破了照片视频生成的大部分关键技术,取得了比Sora更好的照片视频生成质量。
Sophon引擎将持续优化人像可控生成算法,同时也在积极探索商业化。
目前已找到确认的商业落地场景,有望在不久的将来打破大机型“最后一公里”落地难点。
VDT将成为解决多模态大模型数据源问题的有力工具。
利用视频生成,VDT将能够模拟现实世界,进一步提高视觉数据生产效率,为Awaker多模态大模型的自主更新提供帮助。
Awaker1.0是Sophon引擎团队迈向“实现AGI”终极目标的关键一步。
Sophon Engine告诉APPSO,团队认为AI的自我探索、自我反思等自主学习能力是智能水平的重要评价标准,与参数尺度的不断增加(Scaling Law)同样重要。
Awaker1.0实现了“数据主动生成、模型反思与评估、模型持续更新”等关键技术框架,在理解端和生成端都实现了突破。
有望加速多模态大模型产业发展,最终让人类实现AGI。
。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-17
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态