更近了一步!美的精选小额IPO申请获证监会受理
06-18
不得不说,连马斯克都跳得很好!到底是怎么回事?原来,这个舞蹈片段是有人借助阿里巴巴此前流行的AI技术AnimateAnyone生成的。
技术圈的朋友都熟悉这项技术。
“出道”短短一个月,这个项目就已经在 GitHub 上收获了超过 11000 颗星。
就在刚刚到来的这一年,阿里同艺千文APP推出了图片生成舞蹈功能。
用户只需输入图片即可生成流行舞蹈视频。
而且,它是免费的!无论是科目三、鬼步舞、兔子舞……练习时间不需要两年半,统一千文都能帮你分分钟搞定。
有了它,你就能瞬间变身跳舞的达人,再也不用担心自己舞技不够了。
上手步骤:打开统一钱文APP,在对话框中输入“全民舞王”或“统一舞王”。
您可以在弹出的界面中体验一下!该功能一经推出,立即在国内外广受欢迎。
可以说在AI圈子里掀起了一股全民热潮,很多研究者都开始玩起来。
这项研究在 X(以前的 Twitter)上的浏览量轻松达到数万。
你不必出现在镜头前,只需上传一张照片,你就可以变身舞王。
这样的黑科技谁不想尝试呢?隔壁的孩子都羡慕得哭了。
无论是二维还是三维,无论是真人、纸人,甚至是雕塑,统一千纹都能让它们翩翩起舞。
它就像三个步骤一样简单:第一步是选择您喜欢的舞蹈类型。
统一钱文APP内置了不同的舞蹈模板,包括主题三、鬼步舞、DJ慢摆、蒙古舞、桨步、兔舞等十余种舞蹈。
选择您喜欢的一首作为目标舞蹈。
第二步是上传图像。
图片的要求是必须是全身照,正面站立,全身无遮挡物,无俯仰角度。
图片分辨率不得低于×。
您可以立即拍照或选择以前拍摄的照片。
此外,统一钱文APP还内置了照片模板供大家使用。
最后一步是单击“立即生成”。
谁会想到生成舞蹈视频会如此简单。
瞧,马斯克不仅会跳科目三,还会跳蒙古舞!钢铁侠舞净土,舞蹈动作与真人一样出色。
他迈着欢快的小步,他以为自己是真人扮演的。
莉娜·贝尔跳着西方慢摇滚,臀部随着音乐平稳摆动,双臂高举在空中。
节拍不断变化:红极一时的Animate Anybody之所以能够制作出如此丝滑的舞蹈视频,与阿里巴巴在视频制作领域的深度介入密不可分。

事实上,去年阿里巴巴研究团队就提出了一种名为“Animate Anybody”的算法。
论文发表后,在国内外掀起了讨论热潮。
短短一个月内,Animate Anyone 的单个视频在 YouTube 上的播放量就高达 16 万次,而这只是一位 YouTube 博主的视频播放量。
如果算上全网的话,那将是一个巨大的数字:在这段视频的评论区里,大家都赞不绝口:“太神奇了”。
“人工智能的力量太惊人了”,接着又忍不住补充道,“真是太神奇了。
”截至目前,该项目的 GitHub 星标数量已达到 11k 以上。
在视频生成方面,从 GAN 开始,研究人员致力于图像动画和姿势迁移的探索。
然而,生成的视频仍然存在局部失真、细节模糊、语义不一致和时间不连续等问题。
为了解决上述问题,阿里提出了Animate Anybody,一个专为角色动画量身定制的新颖框架,可以将静态图像无缝转换为动态角色视频。
通过巧妙设计的 ReferenceNet、轻量级姿势指南和时间建模方法,Animate Anybody 解决了图像到视频生成中细节不一致和运动不连贯的问题。
Animate Anyone的框架如下: Animate Anyone具有以下特点:第一,有效保持视频中人物外观的空间和时间一致性;其次,它生成的高清视频不会出现时间抖动、闪烁等问题;第三,它能够将任何角色图像动画化到视频中,而不受特定领域的限制。
从一致性、可控性、稳定性三个方面保证视频输出的效果和质量。
例如,在一致性方面,阿里巴巴团队推出了ReferenceNet,用于捕获和保留原始图像信息,可以高度还原人物、表情和服装的细节。
具体来说,对于参考图像特征提取,ReferenceNet使用了与去噪UNet类似的框架,但不包括时间层;它继承了原始扩散模型的权重并独立更新权重。
将ReferenceNet的特征融合到去噪UNet时,首先从ReferenceNet中复制特征图x2 t次,并沿w维度与去噪UNet的特征图x1连接;然后进行self-attention处理并提取特征图的特征前半部分作为输出。
虽然ReferenceNet引入了与去噪UNet相当数量的参数,但在基于扩散的视频生成中,所有视频帧都需要多次去噪,而ReferenceNet在整个过程中只需要提取一次特征,因此不需要推理在推理过程中。
这导致计算开销显着增加。
在可控性方面,阿里巴巴团队使用了Pose Guider。
Pose Guider采用轻量化设计,没有引入额外的控制网络。
具体来说,使用四个卷积层(卷积核大小为4×4,步长为2×2,通道数分别为16、32和64)。
这些卷积层用于对齐姿势图像。
与噪声潜变量具有相同的分辨率。
将处理后的姿态图像添加到噪声潜变量中,然后一起输入到去噪UNet中,从而在不显着增加计算复杂度的情况下为去噪UNet提供姿态控制。
最后,在稳定性方面,阿里巴巴团队引入了时序生成模块。
时间层的设计受到AnimateDiff的启发,通过对特征图进行时间维度的自注意力并通过残差连接将其特征融入到原始特征中。
同样,该模块减少了对复杂运动建模的需求,同时保持时间连续性和细节平滑度。
最后,在AnimateAnyone的支持下,从效果角度保证了图像和视频中人物的一致性。
从上面的例子可以看出,Animate Anybody驱动的视频生成技术更好地保持了时序的连续性和合理性。
视频中人物的动作衔接流畅,没有跳跃或不自然的变化;生成的视频质量也非常逼真,人物形象能够与视频内容保持高度的一致性;此外,视频的风格和色彩也与原图高度一致。
从去年底到现在,不知道大家有没有注意到,AI圈子对AI视频生成技术的痴迷。
纵观AIGC去年一整年的发展,AI视频生成的爆发趋势似乎越来越明显。
国外Runway等升级Gen-2机型,带来电影级高清; Meta发布了视频生成模型Emu Video,其视频动态相比Gen-2有显着提升;经典的Vincent图模型Stable Diffusion Stability AI公司还发布了视频生成模型Stable Video Diffusion(SVD)等。
中国也在迎头赶上,比如字节发布Magic Animate、华为的Animate模式等,都在视频生成领域不断创新。
同样,阿里巴巴在视频生成领域也交出了一份满意的答卷。
它已将Animate Anybody集成到统一钱文APP中,让每个人都可以毫无障碍地进行舞蹈合成。
或许用不了多久,这一轮AI突破带来的改变就会惠及更多人,我们将见证生成式AI对生产力和创新的颠覆。
在这场革命中,我们相信阿里巴巴会带来更多令人惊叹的应用。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态