请查收!2021中国(湘潭)工业软件产业创新创业大赛西南赛区决赛现场实录派送中
06-17
今年是AI在图像视频制作领域取得长足进步的一年。
有人凭借人工智能生成的图像获得了数字艺术奖,击败了所有人类艺术家;有像Tiktok这样的应用程序,可以通过文本输入生成图像,并将其变成短视频绿屏背景;而且有新产品可以做到这一点,文字直接生成视频,直接达到“用嘴拍视频”的效果。
这款产品来自Meta,深耕人工智能多年,前不久还因为元宇宙而被嘲笑。
▲ 元元宇宙已经被疯狂嘲讽了,但这一次,你不能再嘲讽它了,因为它真的有了一个小小的突破。
将文本转换为视频可以做什么?现在,你可以用你的嘴来制作视频了。
虽然这有点夸张,但Meta这次推出的Make-A-Video很可能正在朝着这个目标迈进。
Make-A-Video目前可以做的是: 文字直接生成视频——把你的想象变成真实、独特的视频 图片直接转换成视频——让单张图片或两张图片自然移动成视频 生成扩展视频——输入视频要创建视频变体,请说出文本并直接生成视频。
在这方面,Make-A-Video击败了很多动画设计专业的学生。
至少可以做成任何款式,而且制作成本很低。
虽然官网不允许您直接生成视频体验,但您可以先提交您的个人信息,Make-A-Video的任何开发都会先与您分享。
目前能看到的案例并不多,官网上展示的案例还是有一些奇怪的细节。
但无论如何,文字可以直接转换成视频,这本身就是一种进步。
一只泰迪熊正在画自画像,你可以在纸的阴影部分看到泰迪熊的手的不自然的影子。
机器人在时代广场跳舞。
猫拿着电视遥控器换频道。
猫手上的爪子与人的手非常相似。
有时看着有点害怕。
一只戴着橙色针织帽的毛茸茸的树懒正在玩笔记本电脑,电脑屏幕的光线反射在它的眼睛里。
以上都是超现实风格的,更接近现实的案例更容易忽悠。
Make-A-Video展示的案例如果只关注当地的表演就很好,比如艺术家在画布上画画的特写、马在喝水、珊瑚礁里游动的小鱼等。
但走在大雨中的稍微现实一点的小夫妻却显得十分诡异。
上半身还好,下半身的腿却忽隐忽现,有时还被拉长,像鬼片一样。
还有飞船登陆火星的绘画视频、一对穿着晚礼服的情侣被困在倾盆大雨中、阳光洒在桌子上,以及一个动画熊猫娃娃。
从细节上来说,这些视频并不完美,但单从AI文字到视频的创新效果来看,还是让人惊叹的。
静态油画也可以借助制作视频(一艘在大浪中移动的船)制作动画。
海龟在海里游泳。
最初的场景很自然,但后来变得更像绿幕抠图,很不自然。
瑜伽练习者在早晨的阳光下伸展身体,瑜伽垫也会随着视频的变化而变化——这个AI无法击败学习影视制作的学生,因为控制变量没有做好。
最后,输入视频模仿其风格创建视频变体有3种情况。
其中一项变化不太精致。
一段宇航员在太空中跳舞的视频被转变成 4 个不太美观的版本,但都比较粗糙。
跳舞熊的视频中有不少令人惊讶的变化,至少跳舞的姿势发生了变化。
至于最后那个兔子吃草的视频,就是最“能告诉我我是男是女”的类型吗? 5个视频中很难辨认谁是原视频,而且看起来都很和谐。
一旦文本到图像的转换取得进展,视频就出现了。
在《阿法狗之后,它再次彻底颠覆人类认知》中,我们曾经介绍过图像生成应用程序DALL·E。
有人曾用它产生的图像与人类艺术家竞争并最终获胜。
我们现在看到的Make-A-Video可以说是DALL·E(初级版)的视频版——就像18个月前的DALL·E一样。
它有巨大的突破,但目前的效果不一定会让它更受欢迎。
人们很满意。
▲ DALL·E 创作的延伸画甚至可以说是站在巨人 DALL·E 肩膀上的产品。
与文本生成的图像相比,Make-A-Video在后端并没有做出太多新的改变。
研究人员还在论文中表示:“我们看到描述文本生成图片的模型在生成短视频方面也出奇地有效。
” ▲ 目前获奖作品有 3 件,描述了 Make-A-Video 制作的文本生成图片。
优点:加速T2V模型(文本到视频)的训练。
不需要文本到视频数据对。
转换后的视频继承了原始图像/视频的风格。
当然,这些图像也有缺点。
上面提到的不自然现象是真实存在的。
的。
而且它们并不像这个时代诞生的视频。
画质模糊,动作僵硬,不支持声音匹配,视频长度不超过5秒,分辨率64 x 64px。
这些都是缺陷。
他们的清晰度还远远不够。
▲ 这段视频中有几帧狗的舌头和手,非常奇怪。
清华大学和知识产权研究院(BAAI)的研究团队几个月前发布的第一个可以直接根据文本合成视频的CogVideo模型也存在这个问题。
基于大规模预训练的 Transformer 架构,提出了一种多帧率分层训练策略,可以有效对齐文本和视频剪辑,但经不起更仔细的检查。

但谁能说 18 个月后,Make-A-Video 和 CogVideo 不会制作出比大多数更好的视频呢? ▲ CogVideo 生成的视频 - 目前仅支持中文生成。
虽然已经发布的文本转视频工具不多,但已经有很多正在开发中。
Make-A-Video发布后,初创公司StabilityAI的开发者公开表示:“我们的(文本转视频应用)将会更快更好,适合更多人。
”有竞争就会让它变得更好,越来越真实的文字转图像功能就是最好的证明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-08
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态