首页 > 科技未来 > 内容

就连兵马俑和马斯克都逃不过“第三课题”,这是什么神器?

发布于:2024-06-17 编辑:匿名 来源:网络

不得不说,连马斯克都跳得很好!到底是怎么回事?原来,这个舞蹈片段是有人借助阿里巴巴此前流行的AI技术AnimateAnyone生成的。

技术圈的朋友都熟悉这项技术。

“出道”短短一个月,这个项目就已经在 GitHub 上收获了超过 11000 颗星。

就在刚刚到来的这一年,阿里同艺千文APP推出了图片生成舞蹈功能。

用户只需输入图片即可生成流行舞蹈视频。

而且,它是免费的!无论是科目三、鬼步舞、兔子舞……练习时间不需要两年半,统一千文都能帮你分分钟搞定。

有了它,你就能瞬间变身跳舞的达人,再也不用担心自己舞技不够了。

上手步骤:打开统一钱文APP,在对话框中输入“全民舞王”或“统一舞王”。

您可以在弹出的界面中体验一下!该功能一经推出,立即在国内外广受欢迎。

可以说在AI圈子里掀起了一股全民热潮,很多研究者都开始玩起来。

这项研究在 X(以前的 Twitter)上的浏览量轻松达到数万。

你不必出现在镜头前,只需上传一张照片,你就可以变身舞王。

这样的黑科技谁不想尝试呢?隔壁的孩子都羡慕得哭了。

无论是二维还是三维,无论是真人、纸人,甚至是雕塑,统一千纹都能让它们翩翩起舞。

它就像三个步骤一样简单:第一步是选择您喜欢的舞蹈类型。

统一钱文APP内置了不同的舞蹈模板,包括主题三、鬼步舞、DJ慢摆、蒙古舞、桨步、兔舞等十余种舞蹈。

选择您喜欢的一首作为目标舞蹈。

第二步是上传图像。

图片的要求是必须是全身照,正面站立,全身无遮挡物,无俯仰角度。

图片分辨率不得低于×。

您可以立即拍照或选择以前拍摄的照片。

此外,统一钱文APP还内置了照片模板供大家使用。

最后一步是单击“立即生成”。

谁会想到生成舞蹈视频会如此简单。

瞧,马斯克不仅会跳科目三,还会跳蒙古舞!钢铁侠舞净土,舞蹈动作与真人一样出色。

他迈着欢快的小步,他以为自己是真人扮演的。

莉娜·贝尔跳着西方慢摇滚,臀部随着音乐平稳摆动,双臂高举在空中。

节拍不断变化:红极一时的Animate Anybody之所以能够制作出如此丝滑的舞蹈视频,与阿里巴巴在视频制作领域的深度介入密不可分。

就连兵马俑和马斯克都逃不过“第三课题”,这是什么神器?

事实上,去年阿里巴巴研究团队就提出了一种名为“Animate Anybody”的算法。

论文发表后,在国内外掀起了讨论热潮。

短短一个月内,Animate Anyone 的单个视频在 YouTube 上的播放量就高达 16 万次,而这只是一位 YouTube 博主的视频播放量。

如果算上全网的话,那将是一个巨大的数字:在这段视频的评论区里,大家都赞不绝口:“太神奇了”。

“人工智能的力量太惊人了”,接着又忍不住补充道,“真是太神奇了。

”截至目前,该项目的 GitHub 星标数量已达到 11k 以上。

在视频生成方面,从 GAN 开始,研究人员致力于图像动画和姿势迁移的探索。

然而,生成的视频仍然存在局部失真、细节模糊、语义不一致和时间不连续等问题。

为了解决上述问题,阿里提出了Animate Anybody,一个专为角色动画量身定制的新颖框架,可以将静态图像无缝转换为动态角色视频。

通过巧妙设计的 ReferenceNet、轻量级姿势指南和时间建模方法,Animate Anybody 解决了图像到视频生成中细节不一致和运动不连贯的问题。

Animate Anyone的框架如下: Animate Anyone具有以下特点:第一,有效保持视频中人物外观的空间和时间一致性;其次,它生成的高清视频不会出现时间抖动、闪烁等问题;第三,它能够将任何角色图像动画化到视频中,而不受特定领域的限制。

从一致性、可控性、稳定性三个方面保证视频输出的效果和质量。

例如,在一致性方面,阿里巴巴团队推出了ReferenceNet,用于捕获和保留原始图像信息,可以高度还原人物、表情和服装的细节。

具体来说,对于参考图像特征提取,ReferenceNet使用了与去噪UNet类似的框架,但不包括时间层;它继承了原始扩散模型的权重并独立更新权重。

将ReferenceNet的特征融合到去噪UNet时,首先从ReferenceNet中复制特征图x2 t次,并沿w维度与去噪UNet的特征图x1连接;然后进行self-attention处理并提取特征图的特征前半部分作为输出。

虽然ReferenceNet引入了与去噪UNet相当数量的参数,但在基于扩散的视频生成中,所有视频帧都需要多次去噪,而ReferenceNet在整个过程中只需要提取一次特征,因此不需要推理在推理过程中。

这导致计算开销显着增加。

在可控性方面,阿里巴巴团队使用了Pose Guider。

Pose Guider采用轻量化设计,没有引入额外的控制网络。

具体来说,使用四个卷积层(卷积核大小为4×4,步长为2×2,通道数分别为16、32和64)。

这些卷积层用于对齐姿势图像。

与噪声潜变量具有相同的分辨率。

将处理后的姿态图像添加到噪声潜变量中,然后一起输入到去噪UNet中,从而在不显着增加计算复杂度的情况下为去噪UNet提供姿态控制。

最后,在稳定性方面,阿里巴巴团队引入了时序生成模块。

时间层的设计受到AnimateDiff的启发,通过对特征图进行时间维度的自注意力并通过残差连接将其特征融入到原始特征中。

同样,该模块减少了对复杂运动建模的需求,同时保持时间连续性和细节平滑度。

最后,在AnimateAnyone的支持下,从效果角度保证了图像和视频中人物的一致性。

从上面的例子可以看出,Animate Anybody驱动的视频生成技术更好地保持了时序的连续性和合理性。

视频中人物的动作衔接流畅,没有跳跃或不自然的变化;生成的视频质量也非常逼真,人物形象能够与视频内容保持高度的一致性;此外,视频的风格和色彩也与原图高度一致。

从去年底到现在,不知道大家有没有注意到,AI圈子对AI视频生成技术的痴迷。

纵观AIGC去年一整年的发展,AI视频生成的爆发趋势似乎越来越明显。

国外Runway等升级Gen-2机型,带来电影级高清; Meta发布了视频生成模型Emu Video,其视频动态相比Gen-2有显着提升;经典的Vincent图模型Stable Diffusion Stability AI公司还发布了视频生成模型Stable Video Diffusion(SVD)等。

中国也在迎头赶上,比如字节发布Magic Animate、华为的Animate模式等,都在视频生成领域不断创新。

同样,阿里巴巴在视频生成领域也交出了一份满意的答卷。

它已将Animate Anybody集成到统一钱文APP中,让每个人都可以毫无障碍地进行舞蹈合成。

或许用不了多久,这一轮AI突破带来的改变就会惠及更多人,我们将见证生成式AI对生产力和创新的颠覆。

在这场革命中,我们相信阿里巴巴会带来更多令人惊叹的应用。

就连兵马俑和马斯克都逃不过“第三课题”,这是什么神器?

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 小霸王

    小霸王

    隐退已久的段永平背后的男人段永平,突然又重新回到了公众的视野中。 上周,“小霸王文化申请破产”的消息在网络圈热传。 这位曾经的游戏机之王的命运,引起了无尽的唏嘘。 不过,小霸王随后发表官方声明澄清,破产是“自己的事件”。 与此同时,小霸王背后的那个人段永平再次

    06-18

  • 中科豪芯获近亿元A轮融资,比亚迪、麦格米特等共同投资

    中科豪芯获近亿元A轮融资,比亚迪、麦格米特等共同投资

    投资界(ID:pedaily)7月7日报道,数字信号处理器供应商“中科豪芯”近日宣布,已完成近亿元A轮融资,由比亚迪、麦格米特等行业方共同投资。 本轮融资将主要用于加速产品研发、加大团队建设以及芯片生产和批量交付。 中科浩信成立于今年1月。 主要基于RISC-V指令集架构,专注

    06-17

  • 中国超越新加坡,国家创新指数综合排名NO.1 14

    中国超越新加坡,国家创新指数综合排名NO.1 14

    创头条获悉,6月3日,中科院在浦江创新论坛上发布《国家创新指数报告》。 报告显示,中国国家创新指数位列全球第14位,比上年上升一位,是唯一进入前15名的发展中国家。 从具体得分来看,中国国家创新指数得分为72.5分,比上年提高2.6个百分点。 与英国、芬兰、法国、爱尔兰等

    06-17

  • ARM年度展:见识“智能”硬币的两面

    ARM年度展:见识“智能”硬币的两面

    11月是名副其实的“ARM月”。 ARM TechCon刚刚在北美落下帷幕,“ARM年度技术论坛”巡回上海、北京、深圳。 一周后的11月27日,即ARM的25岁生日,再次拉开帷幕并圆满结束。 数千名中国开发者和行业专家与ARM及生态系统合作伙伴一起参加了此次活动。 国内再次掀起ARM热潮,并引

    06-17

  • 天弘医疗设备ETF募资还剩2天!拟定基金经理沙川

    天弘医疗设备ETF募资还剩2天!拟定基金经理沙川

    随着疫情席卷全球,医疗器械、医疗检测公司股价出现大幅上涨。 3月1日,沙川管理的天弘中证全包医疗器械与服务ETF(73)正式推出。 发行期截止至3月3日,申购代码为73.Listen,中小企业反馈平台。 倾听用户需求,倾听创业者声音,解决中小企业痛点。 点击立即参与调查并获得

    06-18

  • 谁说手机市场不好?海力士投资26亿美元扩大产能

    谁说手机市场不好?海力士投资26亿美元扩大产能

    全球第二大存储芯片制造商SK海力士将投资3.16万亿韩元(26亿美元)推动芯片生产。 此举的目的是为了满足当前市场对手机和电脑的需求。 存储需求不断增长。 苹果公司和索尼公司的供应商周四表示,将在首尔南部清州投资 2.21 万亿韩元建设新工厂,以满足智能手机 NAND 闪存芯片

    06-18

  • 先进晶圆代工工艺价格要涨

    先进晶圆代工工艺价格要涨

    外媒报道,韩国三星电子透露有意提高晶圆代工价格。 由于三星晶圆代工主力在先进工艺,因此宣布将提价。 业界认为这是提高先进晶圆代工工艺价格的第一枪。 这也意味着晶圆代工市场的繁荣已经从成熟工艺延伸至先进工艺。 在三星之前,联电、力积电等工艺成熟的晶圆代工厂已相

    06-08

  • 科杰科技完成亿元融资,致力于自主可控大数据基础

    科杰科技完成亿元融资,致力于自主可控大数据基础

    据投资界(ID:pedaily)5月18日消息,北京科杰科技股份有限公司(以下简称科杰科技)科杰科技于今年10月宣布完成1亿元A轮融资,由华业天成资本、XVC领投,维度资本跟投,老股东考拉基金继续跟投。 据悉,本次融资将用于开发和升级国内大数据基础产品矩阵,构建综合数据能力

    06-18

  • 黑猫焦化计划国内上市

    黑猫焦化计划国内上市

    黑猫焦化计划在中国上市。 2020年9月13日,有消息称,陕西黑猫焦化股份有限公司拟在境内上市。   黑猫焦化前身为陕西黑猫焦化有限公司,成立于2017年11月,2018年12月变更为股份制公司,目前注册资本0万元,主要从事存在于焦炭、甲醇、粗苯和焦油中。 、硫酸铵、电力、蒸压

    06-17

  • 爆炸后,三星第四季度财报显示利润猛增50%

    爆炸后,三星第四季度财报显示利润猛增50%

    雷锋网1月24日报道,三星电子今日发布了第四季度及全年财报。 财报显示,三星第四季度总营收为53.33万亿韩元(约合560亿美元),与去年同期的53.32万亿韩元基本持平;营业利润为9.22万亿韩元(约合79.28亿美元)。 比去年同期的6.14万亿韩元增长50.2%。 营业利润主要来自存储

    06-18

  • 游戏开发商赢之越获B站投资

    游戏开发商赢之越获B站投资

    据投资界8月17日消息,天眼查APP显示,近日,上海赢之越信息技术有限公司发生工商变更,公司新股东为B站关联公司上海欢点信息技术有限公司、上海若星文化科技合伙企业(有限合伙)。 公司第一大股东为宋世宇,持股比例49.33%,上海欢电信息技术有限公司为第三大股东,持股比

    06-17

  • Molex 通过其增强的汽车以太网网络平台展示了其在自动驾驶汽车设计方面的实力

    Molex 通过其增强的汽车以太网网络平台展示了其在自动驾驶汽车设计方面的实力

    l 安全和安保功能集成了设备认证、多层安全性 l 多区域冗余、高时效性网络功能和 AUTOSAR 设备支持 l 先进的信息娱乐系统集成 AWSl 进行边缘计算和网络诊断以连接和快速充电消费设备的解决方案(新加坡 - 2019 年 1 月 9 日)Molex 宣布推出其屡获殊荣的 10 Gbps 汽车以太网平

    06-06