首页 > 科技未来 > 内容

正因为如此，马斯克与兵马俑共舞《科目三》

发布于：2024-06-21 编辑：匿名来源：网络

一张照片就能让马斯克、梅西等大名人们神奇起舞，甚至可以安排全网火爆的科目三。

这不是什么先进的人工智能技术。

阿里巴巴统一钱文在移动端新增加的“全民舞王”功能就可以实现。

还有科目三、DJ慢摇、鬼步舞、极乐舞等12种流行舞蹈模板。

你选择吧。

在统一千文中输入“全民舞王”、“通义舞王”等密码，然后在跳跃界面选择自己喜欢的舞蹈并上传全身照片。

只需十分钟，一个身体素质与精神素质兼具的舞王就会诞生。

华丽的“瞬间”。

没想到浓眉大眼的爱因斯坦瞬间就能变身潮流男，而且动作节奏也不算太强。

▲ 图片来自：Simon_Awen 兵马俑和舞王只差一张照片，这姿势可不是你能掩盖的。

人偶界舞王称霸，他们怎么能忽视我这个“亚洲舞王”尼古拉斯赵四呢？ ▲ 图片来自：工夫财经。

在这张随意画的图中，小人物跳得比我好。

看来我得报名参加舞蹈班了。

▲ 图片来自：胡哥谈蜡笔小新的“抓抓摆姿势”，瞬间回到了童年。

▲ 图片来自：盘花狗让照片“活”起来的AI魔法那么阿里巴巴的AI研究团队是如何让照片动起来的呢？通义舞王功能的发布实际上是AnimateAnyone技术的具体应用和实现。

阿里巴巴人工智能研究团队发布的论文显示，扩散模型是目前视觉生成研究领域的主流。

然而，在图像到视频生成领域，仍然存在局部失真、细节模糊、帧率抖动等问题。

对此，阿里巴巴人工智能研究团队基于扩散模型提出了一种新的人工智能算法Animate Anybody。

该算法的功能是将静态的角色图像转换为动画视频，同时可以通过输入姿势序列来精确控制视频中的角色动作。

▲翻书原理展示。

图片来自：@flipping book Andy Andymation 需要注意的是，在视频制作，尤其是动画制作中，人物的动作都是通过逐帧转场来完成的。

原理和我小时候经常玩的翻翻书类似。

翻开书本，每一页都是静态的手绘稿。

快速翻阅它可以让图片通过人眼的“视觉暂留”bug而移动。

制作一个画面动起来最大的困难来自于“想象”接下来的动作和场景，前后没有任何参考。

因此，在官方的对比展示中，可以看到传统技术“DisCO”多次被批评为反面教材。

其严重的扭曲效果只能让主体移动，但扭曲的体形和奇怪的运动效果根本不值一提。

工作。

因此，为了解决视频人物图像一致性问题，他们引入了参考图像网络ReferenceNet，可以捕获参考图像中的空间细节信息。

然后，他们将ReferenceNet与UNet结合起来，让UNet了解生成目标图像时应该在哪里生成哪些细节，从而使生成的图像能够整体去除噪声，同时保留参考图像中的关键细节。

实现人物形象的一致性。

除了捕捉细节之外，还要保证姿势的可控性。

为此，阿里巴巴AI团队还设计了一款轻量级的姿势引导器——Pose Guider，它在去噪过程中集成了姿势控制信号，以保证生成的动画序列符合指定的姿势。

考虑到视频的稳定性，他们还引入了时序生成模块，让模型能够学习帧之间的连接，这样生成的视频就会流畅连贯而不是支离破碎，同时保持高分辨率的细节让画面质量更好并且更加稳定。

与以往的方法相比，该方法能够有效保持视频人物外观的一致性，不存在改变衣服颜色等问题。

同时，视频流畅清晰，无闪烁、抖动，还支持任意角色的动态动画。

改变。

比如梅西就玩出了中老年人喜爱的顶级风格，举手打招呼。

二维人物在静止状态下移动，跳起室内舞时，给人的印象不亚于真人。

就连钢铁侠也来凑热闹，健身锻炼肌肉，也没有什么问题。

在AI视频生成领域，阿里巴巴背后的技术积累远不止于此。

例如，上个月，阿里巴巴还发布了另一款视频生成技术DreaMoving。

这是一个基于扩散的可控视频生成框架，用于生成高质量的定制人像视频。

该技术的优点是不需要深入了解复杂的视频制作技术。

用户只需给予一些指导，例如一段文字或参考图像，DreaMoving 就可以创建高度逼真的视频。

也就是说，只要给出目标身份和姿势序列，DreaMoving就可以根据姿势序列生成任何人/物体在任何地方跳舞的视频。

简单来说，DreaMoving可以通过简单的输入，如人脸图像、动作序列和文字等，自动生成各种定制的角色视频，实现对视频生成的精确控制。

具体拆解步骤：首先输入一个人的面部图像，生成视频中人的全身图像，然后输入姿势序列，精确控制视频中人物的动作，最后输入文字，更全面地控制视频生成影响。

比如，一个女孩，微笑着，站在海边的沙滩上，穿着浅黄色的长袖连衣裙。

一名身穿西装、打着蓝色领带的男子在埃及金字塔前跳舞。

法国小镇上，一位穿着浅蓝色连衣裙的女孩微笑着跳舞。

AI视频生成行业已经疯狂。

事实上，在生成式AI领域，AI视频生成领域的起点并不算晚。

在ChatGPT Sora诞生之前，很多厂商就已经押注了这条赛道。

微软、谷歌等都推出了类似的AI视频生成工具，但收效甚微。

基于整个行业长期的技术积累，扩散模式的出现让厂商看到了AI视频生成的潜在前景。

与RNN等早期模型相比，它具有明显的优势。

它可以生成更加连贯、清晰的图像或视频序列，加快视频生成的迭代过程。

市面上的主流工具也在此基础上做出了巨大的补充，使得AI视频生成赛道再次掀起波澜，真正呈现出惊人的爆发趋势。

去年年底，《Runway Gen-2》进行了重大更新，分辨率提升至4K，视频生成效果的保真度和一致性有了重大突破。

一周后，动笔功能再次上线。

只需一支笔，就能让静止的事物动起来。

紧接着，文胜图的“领头羊”Stability AI也发布了Stable Video Diffusion，为AI视频生成领域再添热潮。

而Pika 1.0则凭借更简单的视频生成、易于理解的部分视频编辑以及更高质量的视频生成，一经亮相就赢得了众多硅谷大亨的青睐。

从生成到后期制作，您可以自己完成一站式操作。

李飞飞团队与谷歌合作推出的W.A.L.T模型还可以根据自然语言/图片提示生成逼真的2D/3D视频或动画，生成效果可与Runway、Pika等专家相媲美。

这些人工智能视频生成工具主要在质量和数量两个维度上取得了长足的进步。

在质量方面，这些AI产品不断引入更强大的模型架构，并使用更大规模、更高质量的数据进行训练，使得AI生成视频的图像质量、流畅度和保真度不断提高。

从数量上来说，生成的视频时长也在不断地卷进，突破到两位数秒的长度，场景和事件的组合也越来越丰富。

正因为如此，马斯克与兵马俑共舞《科目三》

未来，随着计算能力的进一步提高，将有可能生成持续数小时的高质量视频。

漂浮在云端的技术最终将落地应用，AI视频生成的兴起将创造巨大的蓝海市场。

依托深厚的技术积累，同艺倩文的《全民舞王》就是基于这一商业逻辑的又一产品。

这不仅将开启与阿里巴巴等公司的竞争，加速整个行业的进步，也让我们有机会体验到AI视频生成技术带来的更多可能性。

站长声明

标签：

上一篇：华为Mate40国行版发布！ 4999元起，也是全球首款搭载“数字人民币钱包”的手机

下一篇：iPhone 16新动向：或将采用全新压感按键、新增拍摄按键

华培电力与江苏北人作为LP入股中科创兴

投资圈（ID：pedaily）据4月21日消息，上海华培电力科技（集团）有限公司（以下简称“华培电力”） ”）发布公告，拟以自有资金认购人民币1亿元。江苏北人发布公告，拟以自有资金认购人民币1万元，共同参与设立苏州创兴中科创业投资合伙企业（有限合伙）（暂名）。西安中科

06-18
最擅长制作专业剧的TVB，把新闻搞得像宫斗一样

“我爸总说新闻业工资低，工作时间长，我想问，你觉得我怎么样？”可以说服他。 ” TVB台庆新剧《新闻女王》第一集一开始，一位就读传播系的大学生向明星新闻主播文慧馨提出了这个问题。文慧心问道：“电话诈骗案可以赚千倍的钱，那是不是说诈骗者的贡献比新闻多一千倍呢？”

06-18
21号线正式开通，嘉都科技持续推动广州轨道交通快速发展

12月20日，期待已久的21号线员村至镇龙西段终于开通了！开通后，广州地铁运营里程已突破100公里，运营车站增至100个，为广州“老城新活力”做出更大贡献。广大市民乘坐地铁出行将会有更多的线路和换乘方式。可选，您可以更方便地到达目的地。作为广州地铁建设者之一，嘉都

06-17
博世明年将再斥资4.67亿美元扩大芯片产能

近日，从海外媒体获悉，德国汽车零部件巨头博世集团宣布，已向位于德累斯顿和罗伊特林根的半导体公司拨款超过4.67亿美元，德国明年将大规模建设工厂，并在马来西亚槟城州建设半导体测试中心。该公司希望增加芯片产量，解决全球芯片短缺问题。在博世看来，芯片将在汽车智能化

06-08
4900万同性用户支持IPO：首日暴涨46%，市值58亿

中国最大的同性交友社区终于敲响了上市的钟声。据投资界（ID：pedaily）消息，北京时间7月8日晚，Blued母公司蓝城兄弟成功登陆纳斯达克。发行价16美元，开盘价20.45美元。上市首日收盘价大涨46.44%，市值达8.35亿美元（约合人民币58亿元）。推出8年来，Blued已成为该国最

06-17
【投资日报】最严IPO财务自查直指造假腾讯内讧开始

【资本大事】　　 1.年内9位PE大佬人薪水10亿美元，股票分红超100凯雷投资集团 (Carlyle Group LP) 和 KKR & Co. 高管支付的高薪说明了金融危机后华尔街的地位发生了怎样的变化。大佬、JP摩根、摩根斯坦利等金融界高管在2018年的薪资都出现了下降。然而，专注于企业收购的P

06-17
生物技术提供商Amphivena完成6200万美元C轮融资

据投资界9月26日消息，生物技术提供商Amphivena Therapeutics近日宣布完成6200万美元C轮融资，由启明创投和启明创投共同投资。 NanoDimension领投。 Amphivena Therapeutics 成立于 2007 年，是一家生物技术提供商，专注于开发血液恶性肿瘤的治疗方法。据悉，本轮融资金额将

06-18
全球第三大半导体切割设备制造商以色列ADT落户郑州机场

10月24日，先进微电子装备（郑州）有限公司全资收购以色列ADT新闻发布会举行标志着郑州）有限公司对以色列ADT的收购已完成，中国ADT公司正式成立，世界先进的半导体切割设备制造公司以色列ADT正式落户机场实验区，这将填补我省在该领域的空白。本次收购完成后，新成立的ADT公

06-06
不“甜”的电子烟是香烟更好的替代品

所有水果口味都将成为历史。如果不囤货慢慢买，那就是剩菜，价格会一天比一天高。像这样的电子烟微商还有很多。他们经常在朋友圈或者私聊窗口提醒你，时间已经不多了：5月1日起，电子烟将只有烟草味。 ▲ 图片来自：电子烟微商这是因为最近两篇重磅文件。 3月11日，《电子

06-21
“小白龙环保科技”获数千万元天使轮融资，奥创兴业与盛久基金共同投资

7月2日消息，“小白龙环保科技”获数千万元天使轮投资，本轮由奥创兴业、盛久基金等投资方共同投资。本轮募集资金将用于业务拓展、前后端技术研发、品牌建设以及探索打造碳中和SaaS平台。据了解，小白龙环保科技成立于今年11月。是一家专注于再生资源回收和循环利用的互联

06-18
关于虚拟现实，Noiton有话要说

——作者为台伯河写的这篇文章自从Oculus在Kickstarter上众筹成功后，虚拟现实技术就从20世纪90年代泡沫破灭后的沉寂中恢复过来，再次成为了超级明星受到众多资本、媒体和用户的热烈追捧。与上次不同的是，随着近20年来计算能力的指数级发展，这一次真的有可能成为现实。 SV

06-17
受西安封城管理影响，三星NAND Flash生产调整人力及部分作业

根据TrendForce调查，三星目前受人力轮班安排困难的影响；由于人群管制等原因，公司必须以有限的人力继续生产。三星目前正在积极进行调整，以减少对产量的影响，当地政府预计在一到两周内恢复正常。但如果疫情不能得到妥善控制，不排除会影响近期工厂的生产利用率，导致产量

06-08