湖南湘投何正春:物流行业潜力巨大,并购退出渠道好
06-17
今年春节,OpenAI推出ChatGPT,迅速引爆资本圈和AI圈,从而拉开了AI航程。
今年,类似的故事正在发生。
2月16日凌晨,在没有任何警告和消息的情况下,OpenAI突然发布了自己的Vincent视频模型:Sora。
显然,这给整个AI行业带来了不小的震动。
与市面上现有的AI视频模型相比,Sora展现出了远超预期的能力:不仅直接将视频生成时长一次性提升了15倍,而且还大幅提升了视频内容的稳定性。
更重要的是,在发布的演示视频中,Sora展示了其对物理世界一些规律的理解,这也是以往Vincent视频模型的一大痛点。
Sora 发布的另一个有趣的事情是,为什么总是 OpenAI?要知道,在Sora发布之前,已有不少公司在探索AI视频模型,其中包括知名的Runway、Pika,也都取得了不错的进展。
但OpenAI仍然实现了降维。
这是典型的OpenAI胜利:聚焦AGI的目标,不局限于特定场景,通过Scaling Law,将生成式AI的“魔力”从文本延伸到视频和现实世界。
???????在这个过程中,AI创造的虚拟世界与现实世界的界限逐渐模糊,OpenAI也将离AGI的目标越来越近。
/ 01 / 降维攻击Sora 在Sora发布之前,公众对Vincent的视频解决方案并不陌生。
据知名投资机构a16z此前统计,截至年底,市场上公开的AI视频模型有21个,包括大家熟知的Runway、Pika、Genmo和Stable Video Diffusion等。
相比现有的AI视频模型,Sora的优势主要集中在以下几点:第一,视频时长大幅提升。
Sora 生成长达 1 分钟的超长视频,比市场上所有 AI 视频模型都要长得多。
据a16z统计,现有AI视频模型制作的视频长度大多在10秒以内。
之前流行的《Runway Gen 2》和《Pika》制作的视频长度分别只有4秒和3秒。
60秒的视频长度也意味着它基本满足抖音etc短视频平台的内容要求。
二是视频内容的稳定性。
对于人工智能视频,它们基本上生成帧并在帧之间创建时间连贯的动画。
但由于他们对三维空间以及物体如何相互作用没有固有的理解,人工智能视频经常出现人物扭曲和变形的情况。
例如,经常发生这样的情况:剪辑的前半部分显示一个人在街上行走,但后半部分融化到地面 - 该模型没有“硬”表面的概念。
由于缺乏场景的三维概念,从不同角度生成相同的剪辑也很困难。
但《Sora》的独特之处在于,它制作的60秒视频不仅做到了一枪到底,而且视频中的女主角和背景人物都取得了惊人的一致性。
各种镜头可以随意切换,人物不变。
极高的稳定性。
这是Sora发布的演示视频: 提示:一位时尚女性走在充满温暖霓虹灯和动画城市标志的东京街道上。
她穿着黑色皮夹克、红色长裙和黑色靴子,拎着一个黑色钱包。
她戴着太阳镜,涂着红色口红。
她走路自信又随意。
街道潮湿且反光,在彩色灯光照射下产生镜面效果。
许多行人在周围走动。
第三,其深度的语言理解能力使Sora能够准确识别用户指令,从而在生成的视频中呈现丰富的表情和生动的情感。
这种深刻的理解超越了简单的命令,Sora 还理解这些事物如何存在于物理世界中,甚至能够实现相当多的物理交互。
例如,以空对头发质地物理特性的理解为例。
皮克斯在制作主角苏利时,技术团队花了几个月的时间来呈现其头发柔软、起伏的质感。
开发了一种模拟数千根头发飘动的软件程序。
但现在空不需要任何人教导他就能轻松实现。
“它学习 3D 几何形状和一致性,”该项目的研究科学家蒂姆·布鲁克斯 (Tim Brooks) 说。
“这不是我们预先设定的东西——它完全是通过观察大量数据自然学习的。
”毫无疑问,相比其他“玩具级”视频生成AI,Sora在AI视频领域实现了降维。
/ 02 / 统一视觉数据 从技术角度来看,图像生成和视频生成的底层技术框架比较相似,主要包括循环神经网络、生成对抗网络(GAN)和自回归变压器。
,扩散模型。
与Runway、Pika等主流AI视频侧重于扩散模型不同,Sora采用了新的架构——Diffusion Transformer模型。
顾名思义,该模型结合了扩散模型和自回归模型的双重特征。
扩散变压器架构由加州大学伯克利分校的 William Peebles 和纽约大学的 Saining Xie 在 2017 年提出。
在这个新的架构中,OpenAI沿袭了之前大语言模型的思想,提出了一种使用Patch(视觉补丁)作为视频数据来训练视频模型的方法。
它是低维空间中的统一表达单位,有点像文本。
表单中的令牌。
LLM将所有文本、符号、代码抽象为Tokens,Sora将图片、视频抽象为Patch。
简单来说,OpenAI会将视频和图片切割成很多小块,就像拼图的每一块一样。
这些小碎片就是补丁。
每个补丁就像计算机学习中使用的一张小卡片。
每张卡片都有一点信息。
这样,OpenAI就可以将视频压缩到低维空间,然后利用扩散模型模拟物理过程中的扩散现象来生成内容数据,从充满随机噪声的视频帧变成清晰连贯的视频。
场景。
整个过程有点像把模糊的照片变得清晰。
根据OpenAI的说法,统一表示视觉数据的好处有两点: *、采样灵活性。
Sora 可以对宽屏 xp 视频、垂直 xp 视频以及介于两者之间的所有视频进行采样(如下面的 3 个视频)。
这使得 Sora 能够直接以其原生宽高比为不同设备创建内容,从而以较小的尺寸快速制作内容原型。
二是取景构图效果的提升。
经验表明,以原始长宽比训练视频可以改善构图和取景。
例如,将所有训练视频裁剪成正方形的常见模型有时会生成仅部分可见主题的视频。

相比之下,空的视频构图有所改善。
为什么OpenAI能想到一种统一表示视觉数据的方法?除了技术原因之外,很大程度上得益于OpenAI、Pika、Runway对AI视频生成模型的认知差异。
/ 03 / 世界模型,通AGI之路 在Sora发布之前,AI视频生成往往被认为是AI应用最早的垂直落地场景之一,因为它很容易让人想到颠覆短视频、电影和电视/广告业。
正因为如此,几乎所有的AI视频生成公司都陷入了同质化竞争:过于关注更高的图像质量、更高的成功率和更低的成本,而不是更大的世界模型。
可以看到,Pika和Runway的视频时长都不超过4秒。
虽然画面可以足够优秀,但是物体的动态运动却并不好。
但OpenAI对AI视频生成的探索更像是在沿着另一条路线前进:通过世界模型,打通虚拟世界和现实世界的边界,实现真正的AGI。
OpenAI发布的Sora技术报告中有这样一句话:“我们相信Sora今天所展示的能力证明视频模型的不断扩展(Scaling)是发展物理和数字世界(包括物理世界)的重要因素。
世界模型是 Meta 首席科学家 Yann LeCun 于 2016 年 6 月首次提出的。
它的大致意思是可以将其理解为对真实物理世界的模拟。
机器能够像人类一样全面、准确地理解世界,尤其是当前物理世界中存在的诸多自然规律。
换句话说,OpenAI更愿意将Sora视为理解和模拟现实世界的模型基础。
AGI 的一个重要里程碑,而不是作为 AI 应用实施的场景,这意味着与其他玩家相比,OpenAI 总是从比问题更高维度的角度来看待问题。
实际上,这使得解决问题变得更加容易。
正如爱因斯坦所说,我们不能用创造问题时的思维来解决问题。
从这个角度来说,也可以解释为什么OpenAI总能时不时地给行业带来一点震撼。
虽然从目前来看,AI生成的视频仍然存在各种问题,比如模型很难准确模拟复杂场景的物理现象,也可能无法理解具体实例的因果关系等,不可否认的是,至少空已经开始了解一些物理学了。
世界的规则让眼见不再可信。
基于物理规则构建的世界的真实性遇到了前所未有的挑战。
当大型模型从过去的文本中学习模式时,它们开始从视频和现实世界中学习。
随着尺度法则逻辑在各个领域的出现,或许网络世界和物理世界的界限会变得更加模糊。
【本文由投资界合作伙伴微信公众号授权:读财经。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。
趋势和行业变化,以及对未来技术趋势的洞察。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-17
06-17
06-18
06-18
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态