首页 > 科技未来 > 内容

用嘴拍视频真的来了！ Meta这个新应用太不可思议了

发布于：2024-06-21 编辑：匿名来源：网络

今年是AI在图像视频制作领域取得长足进步的一年。

有人凭借人工智能生成的图像获得了数字艺术奖，击败了所有人类艺术家；有像Tiktok这样的应用程序，可以通过文本输入生成图像，并将其变成短视频绿屏背景；而且有新产品可以做到这一点，文字直接生成视频，直接达到“用嘴拍视频”的效果。

这款产品来自Meta，深耕人工智能多年，前不久还因为元宇宙而被嘲笑。

▲ 元元宇宙已经被疯狂嘲讽了，但这一次，你不能再嘲讽它了，因为它真的有了一个小小的突破。

将文本转换为视频可以做什么？现在，你可以用你的嘴来制作视频了。

虽然这有点夸张，但Meta这次推出的Make-A-Video很可能正在朝着这个目标迈进。

Make-A-Video目前可以做的是：文字直接生成视频——把你的想象变成真实、独特的视频图片直接转换成视频——让单张图片或两张图片自然移动成视频生成扩展视频——输入视频要创建视频变体，请说出文本并直接生成视频。

在这方面，Make-A-Video击败了很多动画设计专业的学生。

至少可以做成任何款式，而且制作成本很低。

虽然官网不允许您直接生成视频体验，但您可以先提交您的个人信息，Make-A-Video的任何开发都会先与您分享。

目前能看到的案例并不多，官网上展示的案例还是有一些奇怪的细节。

但无论如何，文字可以直接转换成视频，这本身就是一种进步。

一只泰迪熊正在画自画像，你可以在纸的阴影部分看到泰迪熊的手的不自然的影子。

机器人在时代广场跳舞。

猫拿着电视遥控器换频道。

猫手上的爪子与人的手非常相似。

有时看着有点害怕。

一只戴着橙色针织帽的毛茸茸的树懒正在玩笔记本电脑，电脑屏幕的光线反射在它的眼睛里。

以上都是超现实风格的，更接近现实的案例更容易忽悠。

Make-A-Video展示的案例如果只关注当地的表演就很好，比如艺术家在画布上画画的特写、马在喝水、珊瑚礁里游动的小鱼等。

但走在大雨中的稍微现实一点的小夫妻却显得十分诡异。

上半身还好，下半身的腿却忽隐忽现，有时还被拉长，像鬼片一样。

还有飞船登陆火星的绘画视频、一对穿着晚礼服的情侣被困在倾盆大雨中、阳光洒在桌子上，以及一个动画熊猫娃娃。

从细节上来说，这些视频并不完美，但单从AI文字到视频的创新效果来看，还是让人惊叹的。

静态油画也可以借助制作视频（一艘在大浪中移动的船）制作动画。

海龟在海里游泳。

最初的场景很自然，但后来变得更像绿幕抠图，很不自然。

瑜伽练习者在早晨的阳光下伸展身体，瑜伽垫也会随着视频的变化而变化——这个AI无法击败学习影视制作的学生，因为控制变量没有做好。

最后，输入视频模仿其风格创建视频变体有3种情况。

其中一项变化不太精致。

一段宇航员在太空中跳舞的视频被转变成 4 个不太美观的版本，但都比较粗糙。

跳舞熊的视频中有不少令人惊讶的变化，至少跳舞的姿势发生了变化。

至于最后那个兔子吃草的视频，就是最“能告诉我我是男是女”的类型吗？ 5个视频中很难辨认谁是原视频，而且看起来都很和谐。

一旦文本到图像的转换取得进展，视频就出现了。

在《阿法狗之后，它再次彻底颠覆人类认知》中，我们曾经介绍过图像生成应用程序DALL·E。

有人曾用它产生的图像与人类艺术家竞争并最终获胜。

我们现在看到的Make-A-Video可以说是DALL·E（初级版）的视频版——就像18个月前的DALL·E一样。

它有巨大的突破，但目前的效果不一定会让它更受欢迎。

人们很满意。

▲ DALL·E 创作的延伸画甚至可以说是站在巨人 DALL·E 肩膀上的产品。

与文本生成的图像相比，Make-A-Video在后端并没有做出太多新的改变。

研究人员还在论文中表示：“我们看到描述文本生成图片的模型在生成短视频方面也出奇地有效。

” ▲ 目前获奖作品有 3 件，描述了 Make-A-Video 制作的文本生成图片。

优点：加速T2V模型（文本到视频）的训练。

不需要文本到视频数据对。

转换后的视频继承了原始图像/视频的风格。

当然，这些图像也有缺点。

上面提到的不自然现象是真实存在的。

的。

而且它们并不像这个时代诞生的视频。

画质模糊，动作僵硬，不支持声音匹配，视频长度不超过5秒，分辨率64 x 64px。

这些都是缺陷。

他们的清晰度还远远不够。

▲ 这段视频中有几帧狗的舌头和手，非常奇怪。

清华大学和知识产权研究院（BAAI）的研究团队几个月前发布的第一个可以直接根据文本合成视频的CogVideo模型也存在这个问题。

基于大规模预训练的 Transformer 架构，提出了一种多帧率分层训练策略，可以有效对齐文本和视频剪辑，但经不起更仔细的检查。

用嘴拍视频真的来了！ Meta这个新应用太不可思议了

但谁能说 18 个月后，Make-A-Video 和 CogVideo 不会制作出比大多数更好的视频呢？ ▲ CogVideo 生成的视频 - 目前仅支持中文生成。

虽然已经发布的文本转视频工具不多，但已经有很多正在开发中。

Make-A-Video发布后，初创公司StabilityAI的开发者公开表示：“我们的（文本转视频应用）将会更快更好，适合更多人。

”有竞争就会让它变得更好，越来越真实的文字转图像功能就是最好的证明。

站长声明

标签：

上一篇：范伟主演的苹果贺岁大片是如何拍摄的？我们和导演挖掘出这些幕后细节

下一篇：真是舔屏啊！美味的料理机来了

小霸王

隐退已久的段永平背后的男人段永平，突然又重新回到了公众的视野中。上周，“小霸王文化申请破产”的消息在网络圈热传。这位曾经的游戏机之王的命运，引起了无尽的唏嘘。不过，小霸王随后发表官方声明澄清，破产是“自己的事件”。与此同时，小霸王背后的那个人段永平再次

06-18
中科豪芯获近亿元A轮融资，比亚迪、麦格米特等共同投资

投资界（ID：pedaily）7月7日报道，数字信号处理器供应商“中科豪芯”近日宣布，已完成近亿元A轮融资，由比亚迪、麦格米特等行业方共同投资。本轮融资将主要用于加速产品研发、加大团队建设以及芯片生产和批量交付。中科浩信成立于今年1月。主要基于RISC-V指令集架构，专注

06-17
中国超越新加坡，国家创新指数综合排名NO.1 14

创头条获悉，6月3日，中科院在浦江创新论坛上发布《国家创新指数报告》。报告显示，中国国家创新指数位列全球第14位，比上年上升一位，是唯一进入前15名的发展中国家。从具体得分来看，中国国家创新指数得分为72.5分，比上年提高2.6个百分点。与英国、芬兰、法国、爱尔兰等

06-17
ARM年度展：见识“智能”硬币的两面

11月是名副其实的“ARM月”。 ARM TechCon刚刚在北美落下帷幕，“ARM年度技术论坛”巡回上海、北京、深圳。一周后的11月27日，即ARM的25岁生日，再次拉开帷幕并圆满结束。数千名中国开发者和行业专家与ARM及生态系统合作伙伴一起参加了此次活动。国内再次掀起ARM热潮，并引

06-17
天弘医疗设备ETF募资还剩2天！拟定基金经理沙川

随着疫情席卷全球，医疗器械、医疗检测公司股价出现大幅上涨。 3月1日，沙川管理的天弘中证全包医疗器械与服务ETF（73）正式推出。发行期截止至3月3日，申购代码为73.Listen，中小企业反馈平台。倾听用户需求，倾听创业者声音，解决中小企业痛点。点击立即参与调查并获得

06-18
谁说手机市场不好？海力士投资26亿美元扩大产能

全球第二大存储芯片制造商SK海力士将投资3.16万亿韩元（26亿美元）推动芯片生产。此举的目的是为了满足当前市场对手机和电脑的需求。存储需求不断增长。苹果公司和索尼公司的供应商周四表示，将在首尔南部清州投资 2.21 万亿韩元建设新工厂，以满足智能手机 NAND 闪存芯片

06-18
先进晶圆代工工艺价格要涨

外媒报道，韩国三星电子透露有意提高晶圆代工价格。由于三星晶圆代工主力在先进工艺，因此宣布将提价。业界认为这是提高先进晶圆代工工艺价格的第一枪。这也意味着晶圆代工市场的繁荣已经从成熟工艺延伸至先进工艺。在三星之前，联电、力积电等工艺成熟的晶圆代工厂已相

06-08
科杰科技完成亿元融资，致力于自主可控大数据基础

据投资界（ID：pedaily）5月18日消息，北京科杰科技股份有限公司（以下简称科杰科技）科杰科技于今年10月宣布完成1亿元A轮融资，由华业天成资本、XVC领投，维度资本跟投，老股东考拉基金继续跟投。据悉，本次融资将用于开发和升级国内大数据基础产品矩阵，构建综合数据能力

06-18
黑猫焦化计划国内上市

黑猫焦化计划在中国上市。 2020年9月13日，有消息称，陕西黑猫焦化股份有限公司拟在境内上市。　　黑猫焦化前身为陕西黑猫焦化有限公司，成立于2017年11月，2018年12月变更为股份制公司，目前注册资本0万元，主要从事存在于焦炭、甲醇、粗苯和焦油中。、硫酸铵、电力、蒸压

06-17
爆炸后，三星第四季度财报显示利润猛增50%

雷锋网1月24日报道，三星电子今日发布了第四季度及全年财报。财报显示，三星第四季度总营收为53.33万亿韩元（约合560亿美元），与去年同期的53.32万亿韩元基本持平；营业利润为9.22万亿韩元（约合79.28亿美元）。比去年同期的6.14万亿韩元增长50.2%。营业利润主要来自存储

06-18
游戏开发商赢之越获B站投资

据投资界8月17日消息，天眼查APP显示，近日，上海赢之越信息技术有限公司发生工商变更，公司新股东为B站关联公司上海欢点信息技术有限公司、上海若星文化科技合伙企业（有限合伙）。公司第一大股东为宋世宇，持股比例49.33%，上海欢电信息技术有限公司为第三大股东，持股比

06-17
Molex 通过其增强的汽车以太网网络平台展示了其在自动驾驶汽车设计方面的实力

l 安全和安保功能集成了设备认证、多层安全性 l 多区域冗余、高时效性网络功能和 AUTOSAR 设备支持 l 先进的信息娱乐系统集成 AWSl 进行边缘计算和网络诊断以连接和快速充电消费设备的解决方案（新加坡 - 2019 年 1 月 9 日）Molex 宣布推出其屡获殊荣的 10 Gbps 汽车以太网平

06-06