首页 > 科技未来 > 内容

Sora爆炸，典型的OpenAI式胜利

发布于：2024-06-18 编辑：匿名来源：网络

今年春节，OpenAI推出ChatGPT，迅速引爆资本圈和AI圈，从而拉开了AI航程。

今年，类似的故事正在发生。

2月16日凌晨，在没有任何警告和消息的情况下，OpenAI突然发布了自己的Vincent视频模型：Sora。

显然，这给整个AI行业带来了不小的震动。

与市面上现有的AI视频模型相比，Sora展现出了远超预期的能力：不仅直接将视频生成时长一次性提升了15倍，而且还大幅提升了视频内容的稳定性。

更重要的是，在发布的演示视频中，Sora展示了其对物理世界一些规律的理解，这也是以往Vincent视频模型的一大痛点。

Sora 发布的另一个有趣的事情是，为什么总是 OpenAI？要知道，在Sora发布之前，已有不少公司在探索AI视频模型，其中包括知名的Runway、Pika，也都取得了不错的进展。

但OpenAI仍然实现了降维。

这是典型的OpenAI胜利：聚焦AGI的目标，不局限于特定场景，通过Scaling Law，将生成式AI的“魔力”从文本延伸到视频和现实世界。

???????在这个过程中，AI创造的虚拟世界与现实世界的界限逐渐模糊，OpenAI也将离AGI的目标越来越近。

/ 01 / 降维攻击Sora 在Sora发布之前，公众对Vincent的视频解决方案并不陌生。

据知名投资机构a16z此前统计，截至年底，市场上公开的AI视频模型有21个，包括大家熟知的Runway、Pika、Genmo和Stable Video Diffusion等。

相比现有的AI视频模型，Sora的优势主要集中在以下几点：第一，视频时长大幅提升。

Sora 生成长达 1 分钟的超长视频，比市场上所有 AI 视频模型都要长得多。

据a16z统计，现有AI视频模型制作的视频长度大多在10秒以内。

之前流行的《Runway Gen 2》和《Pika》制作的视频长度分别只有4秒和3秒。

60秒的视频长度也意味着它基本满足抖音etc短视频平台的内容要求。

二是视频内容的稳定性。

对于人工智能视频，它们基本上生成帧并在帧之间创建时间连贯的动画。

但由于他们对三维空间以及物体如何相互作用没有固有的理解，人工智能视频经常出现人物扭曲和变形的情况。

例如，经常发生这样的情况：剪辑的前半部分显示一个人在街上行走，但后半部分融化到地面 - 该模型没有“硬”表面的概念。

由于缺乏场景的三维概念，从不同角度生成相同的剪辑也很困难。

但《Sora》的独特之处在于，它制作的60秒视频不仅做到了一枪到底，而且视频中的女主角和背景人物都取得了惊人的一致性。

各种镜头可以随意切换，人物不变。

极高的稳定性。

这是Sora发布的演示视频：提示：一位时尚女性走在充满温暖霓虹灯和动画城市标志的东京街道上。

她穿着黑色皮夹克、红色长裙和黑色靴子，拎着一个黑色钱包。

她戴着太阳镜，涂着红色口红。

她走路自信又随意。

街道潮湿且反光，在彩色灯光照射下产生镜面效果。

许多行人在周围走动。

第三，其深度的语言理解能力使Sora能够准确识别用户指令，从而在生成的视频中呈现丰富的表情和生动的情感。

这种深刻的理解超越了简单的命令，Sora 还理解这些事物如何存在于物理世界中，甚至能够实现相当多的物理交互。

例如，以空对头发质地物理特性的理解为例。

皮克斯在制作主角苏利时，技术团队花了几个月的时间来呈现其头发柔软、起伏的质感。

开发了一种模拟数千根头发飘动的软件程序。

但现在空不需要任何人教导他就能轻松实现。

“它学习 3D 几何形状和一致性，”该项目的研究科学家蒂姆·布鲁克斯 (Tim Brooks) 说。

“这不是我们预先设定的东西——它完全是通过观察大量数据自然学习的。

”毫无疑问，相比其他“玩具级”视频生成AI，Sora在AI视频领域实现了降维。

/ 02 / 统一视觉数据从技术角度来看，图像生成和视频生成的底层技术框架比较相似，主要包括循环神经网络、生成对抗网络（GAN）和自回归变压器。

，扩散模型。

与Runway、Pika等主流AI视频侧重于扩散模型不同，Sora采用了新的架构——Diffusion Transformer模型。

顾名思义，该模型结合了扩散模型和自回归模型的双重特征。

扩散变压器架构由加州大学伯克利分校的 William Peebles 和纽约大学的 Saining Xie 在 2017 年提出。

在这个新的架构中，OpenAI沿袭了之前大语言模型的思想，提出了一种使用Patch（视觉补丁）作为视频数据来训练视频模型的方法。

它是低维空间中的统一表达单位，有点像文本。

表单中的令牌。

LLM将所有文本、符号、代码抽象为Tokens，Sora将图片、视频抽象为Patch。

简单来说，OpenAI会将视频和图片切割成很多小块，就像拼图的每一块一样。

这些小碎片就是补丁。

每个补丁就像计算机学习中使用的一张小卡片。

每张卡片都有一点信息。

这样，OpenAI就可以将视频压缩到低维空间，然后利用扩散模型模拟物理过程中的扩散现象来生成内容数据，从充满随机噪声的视频帧变成清晰连贯的视频。

场景。

整个过程有点像把模糊的照片变得清晰。

根据OpenAI的说法，统一表示视觉数据的好处有两点： *、采样灵活性。

Sora 可以对宽屏 xp 视频、垂直 xp 视频以及介于两者之间的所有视频进行采样（如下面的 3 个视频）。

这使得 Sora 能够直接以其原生宽高比为不同设备创建内容，从而以较小的尺寸快速制作内容原型。

二是取景构图效果的提升。

经验表明，以原始长宽比训练视频可以改善构图和取景。

例如，将所有训练视频裁剪成正方形的常见模型有时会生成仅部分可见主题的视频。

Sora爆炸，典型的OpenAI式胜利

相比之下，空的视频构图有所改善。

为什么OpenAI能想到一种统一表示视觉数据的方法？除了技术原因之外，很大程度上得益于OpenAI、Pika、Runway对AI视频生成模型的认知差异。

/ 03 / 世界模型，通AGI之路在Sora发布之前，AI视频生成往往被认为是AI应用最早的垂直落地场景之一，因为它很容易让人想到颠覆短视频、电影和电视/广告业。

正因为如此，几乎所有的AI视频生成公司都陷入了同质化竞争：过于关注更高的图像质量、更高的成功率和更低的成本，而不是更大的世界模型。

可以看到，Pika和Runway的视频时长都不超过4秒。

虽然画面可以足够优秀，但是物体的动态运动却并不好。

但OpenAI对AI视频生成的探索更像是在沿着另一条路线前进：通过世界模型，打通虚拟世界和现实世界的边界，实现真正的AGI。

OpenAI发布的Sora技术报告中有这样一句话：“我们相信Sora今天所展示的能力证明视频模型的不断扩展（Scaling）是发展物理和数字世界（包括物理世界）的重要因素。

世界模型是 Meta 首席科学家 Yann LeCun 于 2016 年 6 月首次提出的。

它的大致意思是可以将其理解为对真实物理世界的模拟。

机器能够像人类一样全面、准确地理解世界，尤其是当前物理世界中存在的诸多自然规律。

换句话说，OpenAI更愿意将Sora视为理解和模拟现实世界的模型基础。

AGI 的一个重要里程碑，而不是作为 AI 应用实施的场景，这意味着与其他玩家相比，OpenAI 总是从比问题更高维度的角度来看待问题。

实际上，这使得解决问题变得更加容易。

正如爱因斯坦所说，我们不能用创造问题时的思维来解决问题。

从这个角度来说，也可以解释为什么OpenAI总能时不时地给行业带来一点震撼。

虽然从目前来看，AI生成的视频仍然存在各种问题，比如模型很难准确模拟复杂场景的物理现象，也可能无法理解具体实例的因果关系等，不可否认的是，至少空已经开始了解一些物理学了。

世界的规则让眼见不再可信。

基于物理规则构建的世界的真实性遇到了前所未有的挑战。

当大型模型从过去的文本中学习模式时，它们开始从视频和现实世界中学习。

随着尺度法则逻辑在各个领域的出现，或许网络世界和物理世界的界限会变得更加模糊。

【本文由投资界合作伙伴微信公众号授权：读财经。

本平台仅提供信息存储服务。

】如有任何疑问，请联系投资界（）。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态，提供一站式资讯服务，实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

趋势和行业变化，以及对未来技术趋势的洞察。

站长声明

标签：

上一篇：OpenAI 正在与中东投资者就新芯片项目的融资事宜进行谈判

下一篇：中国云通信公司 Cloopen Group 计划将其美国 IPO 定价高于指导价区间

LP说要签名打赌，我一晚上都睡不着

你可能不知道，这样的场景正在VC/PE圈子里发生。一年来，我们密集走访了一圈投资机构，一个话题开始被频繁提及——LP开始尝试与GP签署对赌协议。这意味着，当GP业绩不如预期时，LP要求其拿出底线，退回投资。过去，投资者和项目方之间经常出现赌博行为。小米、巨头等互联

06-18
张燕冬对话陈章良：靶向药物将是未来五到十年的热门话题

12月17日，在三亚市人民政府支持、《财经》协办的“三亚财经国际”上、财经网、《财经智库》论坛》、《财经》执行主编、《财经智库》总裁张燕冬对话著名科学家陈章良。《财经》杂志执行主编、《财经智库》总裁张燕冬对话著名科学家陈章良陈章良表示，与传统的化学药物相比，

06-18
存款资金被占用、利益被转移？珠海冠宇回应科创板首轮IPO问询

珠海冠宇电池股份有限公司（以下简称：珠海冠宇）回应科创板首轮问询2月2日董事会IPO。首轮问询共关注珠海冠宇的基本信息、业务与技术、公司治理与独立性、财务会计与管理层的讨论与分析等五个方面。上海证券交易所涉及对赌协议、资金拆借、关联交易等48个问题。

06-18
音乐教育领域最大一笔融资诞生， VIP陪练获腾讯、兰信亚洲领投数亿元B轮投资

据投资界1月8日消息，在线音乐教育平台VIP陪练宣布于近日完成B轮融资。以知名企业腾讯、蓝信亚洲领投，其他投资方还有蓝驰创投、金沙江创投、长石资本等。巨头全部参与了投资。本轮融资金额达数亿元人民币。　　今年以来，他开始尝试互联网+音乐教育模式。 VIP陪练年底获

06-17
为推动大众创业、万众创新深入发展，“新时代科技大众创业、高质量发展论坛”在全国大众创业万众创新活动周期间举办

10月19日，全国大众创业万众创新周、科技部火炬高技术产业新时代科技大众创业高质量发展论坛，由发展中心、河南省科技厅主办，由郑州市金水区人民政府主办、创头条主办，在河南省郑州市隆重举行。科技部党组成员副部长邵新宇，河南省人民政府副省长霍金花，郑州市委常委、党

06-18
西门子收购Insight EDA，拓展Calibre可靠性验证系列

此次收购可以帮助客户在集成电路（IC）设计过程中更轻松地进行针对特定设计的可靠性验证和分析。西门子数字工业软件最近宣布完成对 EDA 公司 Insight Acquisition 的收购，该公司为全球集成电路 (IC) 设计团队提供突破性的电路可靠性解决方案。 Insight EDA 成立于，致力于

06-06
《西湖区产业基金管理办法》2.0版正式发布

近日，《西湖区产业基金管理办法》2.0版（以下简称《管理办法》）正式发布，进一步优化和完善原有政府投资基金运营管理机制支持西湖区重点产业“助力”创业企业，培育上市企业和拟上市梯队企业。《管理办法》共八章三十六条，包括总则、组织架构与运作模式、投资原则与要求

06-18
ASML将在新加坡扩建新生产线

光刻机巨头ASML在新加坡工厂开业仪式上宣布，将在该工厂建设第二个制造车间，预计年初投入生产年。扩建后的工厂将使该公司在新加坡的产能增加两倍，全球产能增加一倍。 ASML是全球领先的科技公司之一，也是全球半导体价值链的主要参与者。这里设计的技术和机器有助于在新加

06-08
智慧在粤港澳！汇聚数字原生创新力量，共商云前路

阿里云加速器带来数字原生创业时光路演，六家加速器企业创始人将带来时光故事分享，涵盖虚实融合、智能网联、自动驾驶、智能网联、智能制造、企业服务赛道。阿里云智能分发生态系统及中小企业事业部总经理潘立维、阿里云智能云原生应用平台王牌（舒通）、存储团队Alex、达摩

06-18
「富树科技」已累计获得C轮、B轮数亿元融资

「富树科技」今日正式宣布完成C轮、B轮融资。 C轮投资方包括中国互联网投资基金、同创伟业，B轮融资亚信证券、晨兴资本等，两轮融资累计金额达数亿元人民币。本轮融资后，浮数科技将继续投入技术研发和产品打磨，加强市场拓展，加速隐私计算在商业层面的大规模应用，构建互联

06-18
珠海炬力：公司产品包括不同系列的低功耗系统级芯片

每日经济新闻每条AI新闻，都有投资者在投资者互动平台上问：您好。现在各地学校因为疫情只能上网。在线教学需要使用该公司的产品吗？珠海炬力（49.SH）4月13日在投资者互动平台表示，公司产品包括不同系列的低功耗系统级芯片，主要应用于无线音频、智能穿戴及语音互动智能

06-06
硬核防窃听！ Mac独有的功能来到iPad：业界最严格的保护机制，基于T2芯片

苹果在保护用户个人隐私方面真是不遗余力。这种不遗余力也体现在苹果最新的设备上。不久前发布的MacBook Air搭载了苹果自主研发的T2安全芯片。作为当前Mac设备的重要组成部分和独特的产品标志，T2安全芯片的核心功能之一就是实现麦克风的硬件屏蔽。（硬件断开）。现在，

06-18