华培电力与江苏北人作为LP入股中科创兴
06-18
一张照片就能让马斯克、梅西等大名人们神奇起舞,甚至可以安排全网火爆的科目三。
这不是什么先进的人工智能技术。
阿里巴巴统一钱文在移动端新增加的“全民舞王”功能就可以实现。
还有科目三、DJ慢摇、鬼步舞、极乐舞等12种流行舞蹈模板。
你选择吧。
在统一千文中输入“全民舞王”、“通义舞王”等密码,然后在跳跃界面选择自己喜欢的舞蹈并上传全身照片。
只需十分钟,一个身体素质与精神素质兼具的舞王就会诞生。
华丽的“瞬间”。
没想到浓眉大眼的爱因斯坦瞬间就能变身潮流男,而且动作节奏也不算太强。
▲ 图片来自:Simon_Awen 兵马俑和舞王只差一张照片,这姿势可不是你能掩盖的。
人偶界舞王称霸,他们怎么能忽视我这个“亚洲舞王”尼古拉斯赵四呢? ▲ 图片来自:工夫财经。
在这张随意画的图中,小人物跳得比我好。
看来我得报名参加舞蹈班了。
▲ 图片来自:胡哥谈蜡笔小新的“抓抓摆姿势”,瞬间回到了童年。
▲ 图片来自:盘花狗让照片“活”起来的AI魔法 那么阿里巴巴的AI研究团队是如何让照片动起来的呢?通义舞王功能的发布实际上是AnimateAnyone技术的具体应用和实现。
阿里巴巴人工智能研究团队发布的论文显示,扩散模型是目前视觉生成研究领域的主流。
然而,在图像到视频生成领域,仍然存在局部失真、细节模糊、帧率抖动等问题。
对此,阿里巴巴人工智能研究团队基于扩散模型提出了一种新的人工智能算法Animate Anybody。
该算法的功能是将静态的角色图像转换为动画视频,同时可以通过输入姿势序列来精确控制视频中的角色动作。
▲翻书原理展示。
图片来自:@flipping book Andy Andymation 需要注意的是,在视频制作,尤其是动画制作中,人物的动作都是通过逐帧转场来完成的。
原理和我小时候经常玩的翻翻书类似。
翻开书本,每一页都是静态的手绘稿。
快速翻阅它可以让图片通过人眼的“视觉暂留”bug而移动。
制作一个画面动起来最大的困难来自于“想象”接下来的动作和场景,前后没有任何参考。
因此,在官方的对比展示中,可以看到传统技术“DisCO”多次被批评为反面教材。
其严重的扭曲效果只能让主体移动,但扭曲的体形和奇怪的运动效果根本不值一提。
工作。
因此,为了解决视频人物图像一致性问题,他们引入了参考图像网络ReferenceNet,可以捕获参考图像中的空间细节信息。
然后,他们将ReferenceNet与UNet结合起来,让UNet了解生成目标图像时应该在哪里生成哪些细节,从而使生成的图像能够整体去除噪声,同时保留参考图像中的关键细节。
实现人物形象的一致性。
除了捕捉细节之外,还要保证姿势的可控性。
为此,阿里巴巴AI团队还设计了一款轻量级的姿势引导器——Pose Guider,它在去噪过程中集成了姿势控制信号,以保证生成的动画序列符合指定的姿势。
考虑到视频的稳定性,他们还引入了时序生成模块,让模型能够学习帧之间的连接,这样生成的视频就会流畅连贯而不是支离破碎,同时保持高分辨率的细节让画面质量更好并且更加稳定。
与以往的方法相比,该方法能够有效保持视频人物外观的一致性,不存在改变衣服颜色等问题。
同时,视频流畅清晰,无闪烁、抖动,还支持任意角色的动态动画。
改变。
比如梅西就玩出了中老年人喜爱的顶级风格,举手打招呼。
二维人物在静止状态下移动,跳起室内舞时,给人的印象不亚于真人。
就连钢铁侠也来凑热闹,健身锻炼肌肉,也没有什么问题。
在AI视频生成领域,阿里巴巴背后的技术积累远不止于此。
例如,上个月,阿里巴巴还发布了另一款视频生成技术DreaMoving。
这是一个基于扩散的可控视频生成框架,用于生成高质量的定制人像视频。
该技术的优点是不需要深入了解复杂的视频制作技术。
用户只需给予一些指导,例如一段文字或参考图像,DreaMoving 就可以创建高度逼真的视频。
也就是说,只要给出目标身份和姿势序列,DreaMoving就可以根据姿势序列生成任何人/物体在任何地方跳舞的视频。
简单来说,DreaMoving可以通过简单的输入,如人脸图像、动作序列和文字等,自动生成各种定制的角色视频,实现对视频生成的精确控制。
具体拆解步骤:首先输入一个人的面部图像,生成视频中人的全身图像,然后输入姿势序列,精确控制视频中人物的动作,最后输入文字,更全面地控制视频生成影响。
比如,一个女孩,微笑着,站在海边的沙滩上,穿着浅黄色的长袖连衣裙。
一名身穿西装、打着蓝色领带的男子在埃及金字塔前跳舞。
法国小镇上,一位穿着浅蓝色连衣裙的女孩微笑着跳舞。
AI视频生成行业已经疯狂。
事实上,在生成式AI领域,AI视频生成领域的起点并不算晚。
在ChatGPT Sora诞生之前,很多厂商就已经押注了这条赛道。
微软、谷歌等都推出了类似的AI视频生成工具,但收效甚微。
基于整个行业长期的技术积累,扩散模式的出现让厂商看到了AI视频生成的潜在前景。
与RNN等早期模型相比,它具有明显的优势。
它可以生成更加连贯、清晰的图像或视频序列,加快视频生成的迭代过程。
市面上的主流工具也在此基础上做出了巨大的补充,使得AI视频生成赛道再次掀起波澜,真正呈现出惊人的爆发趋势。
去年年底,《Runway Gen-2》进行了重大更新,分辨率提升至4K,视频生成效果的保真度和一致性有了重大突破。
一周后,动笔功能再次上线。
只需一支笔,就能让静止的事物动起来。
紧接着,文胜图的“领头羊”Stability AI也发布了Stable Video Diffusion,为AI视频生成领域再添热潮。
而Pika 1.0则凭借更简单的视频生成、易于理解的部分视频编辑以及更高质量的视频生成,一经亮相就赢得了众多硅谷大亨的青睐。
从生成到后期制作,您可以自己完成一站式操作。
李飞飞团队与谷歌合作推出的W.A.L.T模型还可以根据自然语言/图片提示生成逼真的2D/3D视频或动画,生成效果可与Runway、Pika等专家相媲美。
这些人工智能视频生成工具主要在质量和数量两个维度上取得了长足的进步。
在质量方面,这些AI产品不断引入更强大的模型架构,并使用更大规模、更高质量的数据进行训练,使得AI生成视频的图像质量、流畅度和保真度不断提高。
从数量上来说,生成的视频时长也在不断地卷进,突破到两位数秒的长度,场景和事件的组合也越来越丰富。

未来,随着计算能力的进一步提高,将有可能生成持续数小时的高质量视频。
漂浮在云端的技术最终将落地应用,AI视频生成的兴起将创造巨大的蓝海市场。
依托深厚的技术积累,同艺倩文的《全民舞王》就是基于这一商业逻辑的又一产品。
这不仅将开启与阿里巴巴等公司的竞争,加速整个行业的进步,也让我们有机会体验到AI视频生成技术带来的更多可能性。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-08
06-21
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态