首页 > 科技未来 > 内容

就连兵马俑和马斯克都逃不过“第三课题”，这是什么神器？

发布于：2024-06-17 编辑：匿名来源：网络

不得不说，连马斯克都跳得很好！到底是怎么回事？原来，这个舞蹈片段是有人借助阿里巴巴此前流行的AI技术AnimateAnyone生成的。

技术圈的朋友都熟悉这项技术。

“出道”短短一个月，这个项目就已经在 GitHub 上收获了超过 11000 颗星。

就在刚刚到来的这一年，阿里同艺千文APP推出了图片生成舞蹈功能。

用户只需输入图片即可生成流行舞蹈视频。

而且，它是免费的！无论是科目三、鬼步舞、兔子舞……练习时间不需要两年半，统一千文都能帮你分分钟搞定。

有了它，你就能瞬间变身跳舞的达人，再也不用担心自己舞技不够了。

上手步骤：打开统一钱文APP，在对话框中输入“全民舞王”或“统一舞王”。

您可以在弹出的界面中体验一下！该功能一经推出，立即在国内外广受欢迎。

可以说在AI圈子里掀起了一股全民热潮，很多研究者都开始玩起来。

这项研究在 X（以前的 Twitter）上的浏览量轻松达到数万。

你不必出现在镜头前，只需上传一张照片，你就可以变身舞王。

这样的黑科技谁不想尝试呢？隔壁的孩子都羡慕得哭了。

无论是二维还是三维，无论是真人、纸人，甚至是雕塑，统一千纹都能让它们翩翩起舞。

它就像三个步骤一样简单：第一步是选择您喜欢的舞蹈类型。

统一钱文APP内置了不同的舞蹈模板，包括主题三、鬼步舞、DJ慢摆、蒙古舞、桨步、兔舞等十余种舞蹈。

选择您喜欢的一首作为目标舞蹈。

第二步是上传图像。

图片的要求是必须是全身照，正面站立，全身无遮挡物，无俯仰角度。

图片分辨率不得低于×。

您可以立即拍照或选择以前拍摄的照片。

此外，统一钱文APP还内置了照片模板供大家使用。

最后一步是单击“立即生成”。

谁会想到生成舞蹈视频会如此简单。

瞧，马斯克不仅会跳科目三，还会跳蒙古舞！钢铁侠舞净土，舞蹈动作与真人一样出色。

他迈着欢快的小步，他以为自己是真人扮演的。

莉娜·贝尔跳着西方慢摇滚，臀部随着音乐平稳摆动，双臂高举在空中。

节拍不断变化：红极一时的Animate Anybody之所以能够制作出如此丝滑的舞蹈视频，与阿里巴巴在视频制作领域的深度介入密不可分。

就连兵马俑和马斯克都逃不过“第三课题”，这是什么神器？

事实上，去年阿里巴巴研究团队就提出了一种名为“Animate Anybody”的算法。

论文发表后，在国内外掀起了讨论热潮。

短短一个月内，Animate Anyone 的单个视频在 YouTube 上的播放量就高达 16 万次，而这只是一位 YouTube 博主的视频播放量。

如果算上全网的话，那将是一个巨大的数字：在这段视频的评论区里，大家都赞不绝口：“太神奇了”。

“人工智能的力量太惊人了”，接着又忍不住补充道，“真是太神奇了。

”截至目前，该项目的 GitHub 星标数量已达到 11k 以上。

在视频生成方面，从 GAN 开始，研究人员致力于图像动画和姿势迁移的探索。

然而，生成的视频仍然存在局部失真、细节模糊、语义不一致和时间不连续等问题。

为了解决上述问题，阿里提出了Animate Anybody，一个专为角色动画量身定制的新颖框架，可以将静态图像无缝转换为动态角色视频。

通过巧妙设计的 ReferenceNet、轻量级姿势指南和时间建模方法，Animate Anybody 解决了图像到视频生成中细节不一致和运动不连贯的问题。

Animate Anyone的框架如下： Animate Anyone具有以下特点：第一，有效保持视频中人物外观的空间和时间一致性；其次，它生成的高清视频不会出现时间抖动、闪烁等问题；第三，它能够将任何角色图像动画化到视频中，而不受特定领域的限制。

从一致性、可控性、稳定性三个方面保证视频输出的效果和质量。

例如，在一致性方面，阿里巴巴团队推出了ReferenceNet，用于捕获和保留原始图像信息，可以高度还原人物、表情和服装的细节。

具体来说，对于参考图像特征提取，ReferenceNet使用了与去噪UNet类似的框架，但不包括时间层；它继承了原始扩散模型的权重并独立更新权重。

将ReferenceNet的特征融合到去噪UNet时，首先从ReferenceNet中复制特征图x2 t次，并沿w维度与去噪UNet的特征图x1连接；然后进行self-attention处理并提取特征图的特征前半部分作为输出。

虽然ReferenceNet引入了与去噪UNet相当数量的参数，但在基于扩散的视频生成中，所有视频帧都需要多次去噪，而ReferenceNet在整个过程中只需要提取一次特征，因此不需要推理在推理过程中。

这导致计算开销显着增加。

在可控性方面，阿里巴巴团队使用了Pose Guider。

Pose Guider采用轻量化设计，没有引入额外的控制网络。

具体来说，使用四个卷积层（卷积核大小为4×4，步长为2×2，通道数分别为16、32和64）。

这些卷积层用于对齐姿势图像。

与噪声潜变量具有相同的分辨率。

将处理后的姿态图像添加到噪声潜变量中，然后一起输入到去噪UNet中，从而在不显着增加计算复杂度的情况下为去噪UNet提供姿态控制。

最后，在稳定性方面，阿里巴巴团队引入了时序生成模块。

时间层的设计受到AnimateDiff的启发，通过对特征图进行时间维度的自注意力并通过残差连接将其特征融入到原始特征中。

同样，该模块减少了对复杂运动建模的需求，同时保持时间连续性和细节平滑度。

最后，在AnimateAnyone的支持下，从效果角度保证了图像和视频中人物的一致性。

从上面的例子可以看出，Animate Anybody驱动的视频生成技术更好地保持了时序的连续性和合理性。

视频中人物的动作衔接流畅，没有跳跃或不自然的变化；生成的视频质量也非常逼真，人物形象能够与视频内容保持高度的一致性；此外，视频的风格和色彩也与原图高度一致。

从去年底到现在，不知道大家有没有注意到，AI圈子对AI视频生成技术的痴迷。

纵观AIGC去年一整年的发展，AI视频生成的爆发趋势似乎越来越明显。

国外Runway等升级Gen-2机型，带来电影级高清； Meta发布了视频生成模型Emu Video，其视频动态相比Gen-2有显着提升；经典的Vincent图模型Stable Diffusion Stability AI公司还发布了视频生成模型Stable Video Diffusion（SVD）等。

中国也在迎头赶上，比如字节发布Magic Animate、华为的Animate模式等，都在视频生成领域不断创新。

同样，阿里巴巴在视频生成领域也交出了一份满意的答卷。

它已将Animate Anybody集成到统一钱文APP中，让每个人都可以毫无障碍地进行舞蹈合成。

或许用不了多久，这一轮AI突破带来的改变就会惠及更多人，我们将见证生成式AI对生产力和创新的颠覆。

在这场革命中，我们相信阿里巴巴会带来更多令人惊叹的应用。

就连兵马俑和马斯克都逃不过“第三课题”，这是什么神器？

站长声明

版权声明：本文内容由互联网用户自发贡献，本站不拥有所有权，不承担相关法律责任。如果发现本站有涉嫌抄袭的内容，欢迎发送邮件举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

标签：

上一篇：看了新企划NO.26｜没人知道老人什么时候摔倒？ AI行为识别技术提供商艾耀明致力于做智慧养老“管家”

下一篇：中高端牛肉品牌牛痴获IDG资本

相关文章

更近了一步！美的精选小额IPO申请获证监会受理

美的（65.NQ）于2018年5月14日收到《中国证监会行政许可申请受理单》，证监会于2019年5月13日受理公司公开发行核准向不特定合格投资者提供申请材料。

06-18
马可- “银河航天”完成新一轮融资，源代码是Pre-A轮投资者

近日，中国商业航天企业银河航天完成最新一轮融资，投后估值约1亿元人民币。老股东源码资本自Pre-A轮起就投资了银河航天，并持续支持后续几轮融资。本轮融资由建银国际领投，安徽三众宜创基金、合肥产业投资、振威基金跟投。老股东君联资本、混沌投资继续跟风。据了解，银

06-18
2021年除夕夜银联线上交易笔数同比增长10.4%

中国银联最新数据显示，除夕夜（2月11日0:00至24:00），银联网上交易金额增加1亿元，较去年除夕同比增长7.1%。去年除夕夜，银联网上交易笔数同比增长10.4%。

06-18
新玩法？高德地图携手郭德纲首次推出公交导航

12月18日，高德地图在北京正式发布高德地图公交导航版，成为国内首家推出专业公交导航产品的互联网地图厂商旅行用户。此外，高德还宣布与国内著名相声艺术家郭德纲合作，为高德地图用户提供郭德纲专属语音导航。公交导航打造无缝出行体验作为专注地图导航领域12年的专业厂

06-18
专注光量子集成芯片设计，“硅量子”获新一轮融资1500万，国芯科技投资

据投资界（ID：pedaily）4月20日消息，合肥硅芯科技有限公司已获新一轮融资。硅量子股份有限公司（以下简称“硅量子”）近日获得新一轮1万元融资，本轮由苏州国芯科技有限公司（以下简称“国芯科技”）投资。是国芯科技继今年5月份之后发起的第二轮投资，两轮投资金额合计

06-18
广州耀明小江完成3000万元A轮融资

据投资界4月29日消息，广州耀明小江科技有限公司近日完成1万元A轮融资。投资方为广州金控基金管理有限公司和纳斯科技投资管理有限公司。据了解，本轮融资将为公司深化业务拓展、加强网络协同和数据智能、推动服务生态融合提供强有力的资本支持。公司将继续巩固在自助设备、

06-18
生而纯，RED CHAMBER朱栈开启中国纯妆行业新标准

4月11日，RED CHAMBER朱栈（以下简称：RC）在北京举办“生而纯首届纯妆团”上海世博会创意展示标准及纯化妆品行业白皮书新闻发布会”。现场，品牌联合上海日用化学品行业协会正式推出中国最纯净化妆品团体标准《纯净彩妆通用要求指南》，并携手凯度咨询、天猫TMIC、行业权威

06-18
清流资本十周年特别行动：CEO闭门系列“新能源+新材料引领下一个十年”特别活动

清流资本十周年特别行动：CEO闭门系列“新能源+新材料引领下一个十年”特别活动< titlesplit >专题专场清流资本十周年清流资本微信IDCrystalstreamCapital关于特色清流资本是成功人士创业者创立的风险投资公司，专注于投资TMT领域的初创公司。团队成员均来自顶尖互联网公

06-18
用iPad Pro玩了两天游戏，发现了苹果做游戏机的突破点

苹果在今年春季发布会上发布了新的游戏订阅服务“Apple Arcade”，并于9月份在iPhone上正式推出同年推出的iPad、Apple TV、MacBook设备，采用首月免费、第二个月收费4.99美元/月的商业模式。几乎与此同时，苹果官方商店中出现了一款意想不到的产品——微软精英控制器II。此

06-21
同程旅游：“五一”假期机票预订量同比增长超10倍

同程旅游大数据显示，截至3月17日，“五一”假期机票预订量同比增长10倍以上< titlesplit > “五一”假期同比增加10倍以上。主要原因是同期疫情存在不确定性。目前，清明假期机票价格已基本恢复至去年同期水平，五一假期机票价格已超过去年同期。据同程旅游平台数据预测，

06-17
上海证券交易所：科创板上市公司申请发行股票购买资产的交易所审核时间修改为60天

上交所拟修改《上海证券交易所科创板上市公司重大资产重组审核规则》。修改内容包括：增加并购重组委对科创公司发行股份购买资产的审核流程，同时将重组交易项目的审核流程由现有的上市委员会变更为并购重组委的审核收购与重组委员会。修改审核时间，完善相关计算规则。根

06-18
阿里云发布《Create@阿里巴巴诸神之战2023年度新势力榜单》

面对复杂多变的市场环境，这是企业发展充满活力的一年。大型人工智能模型诞生，新的数字模型和新技术不断涌现，人工智能与各行各业互动。随着各行业的深度融合，我们看到越来越多的创新型企业利用科技发展的契机，实现从理念到产品到市场创新的创新。也有越来越多的企业通

06-17