首页 > 科技未来 > 内容

Sora受欢迎，大佬技术分析来了

发布于：2024-06-18 编辑：匿名来源：网络

我们来谈谈Sora有多受欢迎。

其中一个生成的视频在网上疯传。

作者小哥新上传的效果很快就吸引了围观。

失败案例让人一看就上瘾。

近万人点赞。

学术界更是兴奋不已，各界大佬纷纷打开麦克风。

纽约大学助理教授谢赛宁（《ResNeXt》作者）直言Sora将改写整个视频生成领域。

NVIDIA高级研究科学家Jim Fan喊道，这就是视频生成的GPT-3时刻！尤其是技术报告发布后，讨论变得更加有趣。

因为很多细节都不是很清楚，大佬只能猜测。

包括“Sora是数据驱动的物理引擎”、“Sora是建立在DiT模型之上，参数可能只有30亿”等等。

那么，Sora为何如此神奇呢？这对视频生成领域意味着什么？不，很快就会有一些可能的答案。

视频生成的 GPT-3 矩一般来说，Sora是一种在不同时长、分辨率和长宽比的视频和图像上训练的扩散模型。

它还使用了 Transformer 架构，这是一种“扩散模型”。

关于技术细节，官方报告简单提到了以下6点：一是视觉数据的“创新转化”。

与大语言模型中的代币不同，Sora使用“补丁”来统一不同的视觉数据表达。

如图下图中，在具体操作中，模型首先将视频压缩到低维潜在空间，然后将它们的表示分解为时空补丁，从而将视频转换为补丁（啊，这个，看来我。

说完就没说什么了）第二是训练一个视频压缩网络，它可以降低视觉数据的维度，输入视频，输出一个时空压缩的潜在表示，相应的，OpenAI也训练了这个。

第三个是时空潜在补丁技术，给定压缩的输入视频，该模型提取一系列时空补丁，作为 Transformer 的令牌。

正是这种基于补丁的表示形式使Sora能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。

在推理时，模型通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

第四是发现扩展的Transformer也适合视频生成。

OpenAI在这项研究中发现，扩散Transformer在视频模型领域也能实现高效扩展。

下图显示，随着训练资源的增加，样本质量显着提高（固定种子和输入条件）。

五是关于视频多元化的一些启示。

与其他机型相比，Sora可以容纳各种尺寸的视频，包括不同的分辨率、时长、长宽比等，还对构图和布局进行了更多优化，如下图所示。

业内很多类似模型都会盲目地将输出视频裁剪成正方形，导致主题元素仅部分显示，但Sora却可以捕捉到完整的场景：报告指出，这一切都得益于 OpenAI 直接在原始维度上进行训练的视频数据。

最后，还有语言理解方面的努力。

在这里，OpenAI采用了DALL·E 3中引入的重新标注技术并将其应用到视频中。

除了使用高度描述性的视频描述进行训练外，OpenAI还使用GPT将用户的简短提示转换为更长的详细描述，然后发送给Sora。

这个系列让Sora的文字理解能力相当强大。

技术的介绍报告只提到了这么多，剩下的文字重点是Sora的一系列效果演示，包括文字转视频、视频转视频、图像生成等。

可见，“补丁”如何设计等核心问题，文中并没有详细解释。

有网友抱怨OpenAI还是那么“近”。

这也是大佬和网友们有各种猜测的原因。

谢赛宁的分析：1.Sora应该以DiT，扩散变压器为基础。

简而言之，DiT 是一个具有 Transformer 主干的扩散模型，它 = [VAE 编码器 + ViT + DDPM + VAE 解码器]。

谢赛宁推测Sora不应该对此有太多花哨的额外内容。

2、关于视频压缩网络，Sora可能会采用VAE架构。

不同之处在于它是用原始视频数据进行训练的。

由于 VAE 是一个 ConvNet，因此 DiT 从技术上来说是一个混合模型。

3.Sora可能有大约30亿个参数。

谢赛宁认为，这种猜测不无道理，因为Sora可能并不真的像人们想象的那样需要那么多GPU来进行训练。

如果真是这样的话，Sora后期的迭代将会非常快。

NVIDIA AI科学家Jim Fan认为：Sora应该是一个数据驱动的物理引擎。

Sora是现实或幻想世界的模拟。

它使用一些去噪和梯度下降来学习复杂的渲染、“直观”物理、远景推理和语义基础。

例如，在这个效果中，提示词是两艘海盗船在一杯咖啡中航行和战斗的逼真特写视频。

Jim Fan分析说，Sora首先需要提供两种3D资产：不同装饰的海盗船；文本转3D的隐含问题必须在势空间中解决；考虑到咖啡液的流动，两艘船必须避开彼此的航线。

力学，保持真实感，带来追光般的效果。

有人认为Sora只是在二维层面上控制像素。

Jim Fan显然不同意这种说法。

他觉得这就像说 GPT-4 不理解编码，只对字符串进行采样。

不过，他也表示，Sora目前还无法取代游戏引擎开发商，因为其对物理学的理解还远远不够，还存在非常严重的“幻觉”。

于是他提出Sora是视频生成的GPT-3时刻。

早在 2010 年，GPT-3 并不是一个伟大的模型，但它有力地证明了情境学习的重要性。

所以不要纠结于GPT-3的缺点，多思考GPT-4。

此外，一些大胆的网友甚至怀疑Sora使用了虚幻引擎5来创建一些训练数据。

他甚至一一分析了几个视频中的效果来支持他的猜想：然而反驳他的人也不少。

理由包括：“人走路的镜头明显很奇怪，不可能是引擎的效果。

” “YouTube上有无数的视频。

各种视频有数十亿小时，ue5没有多大用处”……我们暂时先放一边。

最后，有网友表示，虽然不期待OpenAI提供更多细节，但还是想知道Sora在视频编码、解码以及时间插值的附加模块方面是否有任何创新。

OpenAI的估值为1亿美元。

在Sora引起全球关注的同时，OpenAI的估值也再次上涨，成为全球第三高估值的科技初创公司。

随着最新要约收购的完成，OpenAI的估值正式达到1亿美元，仅次于字节跳动和SpaceX。

该交易由风险投资公司 Thrive Capital 牵头，允许外部投资者购买部分员工的股票。

OpenAI去年初完成了一项类似的交易，当时估值为1亿美元。

Sora发布后，GPT-4 Turbo 还大幅降低了速率限制并提高了 TPM（*每分钟代币数量），实现了较之前 2 倍的提升。

布罗克曼总统也亲自推动。

但与此同时，OpenAI申请注册“GPT”商标失败。

原因是“GPT”太通用了。

还有一点值得一提的是，眼尖的网友发现Stability AI昨天也发布了SVD 1.1。

但Sora似乎在发布博客后不久就迅速删除了该博客。

有人恶评，这不是翻版汪峰吗？它不应该被删除，而应该被带回来以获得人气。

这仍然是一个笑话。

有人感叹，Sora一来，立刻就明白了张楠为什么要主攻电影剪辑。

当然还有卖家大军，他们也趁着消息，抢占了商机。

【本文由投资社区合作伙伴微信公众号授权：量子比特。

本平台仅提供信息存储服务。

】如有任何疑问，请联系投资界（）。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态，提供一站式资讯服务，实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

Sora受欢迎，大佬技术分析来了

趋势和行业变化，以及对未来技术趋势的洞察。

站长声明

标签：

上一篇：诸神降临，巅峰“决战”，诚邀你来战！

下一篇：深创投今日完成签约

21上半年北美风险投资同比增长116%至1550亿美元，新增独角兽161家

今日头条Crunchbase数据显示，北美初创企业2019年共融资1亿美元上半年，创下历史新纪录。同比、环比增速分别为66%、66%。同时，还添加了新的独角兽。后期融资近两个季度，北美后期融资蓬勃发展。融资数量和总额均有所增加，金额已超过全年总额。今年上半年，北美地区后

06-17
如何对隐形人使用抖音？

“你看这烤鸭，外焦里嫩，现在下单还有优惠哦！”盛先生“听”着主播在电话里大力喊叫，轻敲屏幕两下，成功下单。对于很多人来说，这只是通过直播“剁手”的常见经历带货。然而，对于以盛先生为代表的视障群体来说，这样“轻松”的使用场景曾经是一种奢侈。曾几何时，盲人

06-18
AI智慧庭院解决方案提供商“海森堡机器人”获数百万美元天使轮融资，由DCM

投资界（ID：pedaily）领投 7月12日消息，AI智慧庭院解决方案提供商“海森堡机器人”（以下简称“Heisenberg Robotics”）海森堡机器人公司）获数百万美元天使轮融资，本轮由DCM领投，江门创投跟投，万石资本担任本轮融资的唯一投资方。融资将用于继续加大AI视觉算法等核心技

06-17
海尔民族时尚家电节：3大差异化优势赋能全场景智慧生活

随着文化自信时代的到来，不难发现我们总是买进与民族时尚相关的品牌。国民奶糖大白兔与气味图书馆联手推出“大白兔”香水，还没闻到就吸引了无数网友的支持。此前，RIO六神鸡尾酒17秒售空一瓶，民族风情罐1天售空56罐。宣布售空……每一个民族品牌潮流都能引发我们的购买

06-18
乐准智信完成Pre-A轮3500万元融资，三诺生物领投

乐准智信近日宣布完成1万元Pre-A轮融资。本轮融资由三诺生物领投，深瑞享源跟投，北拓资本负责交易。

06-18
15亿，上海半导体设备材料二期基金完成首关

投资圈-解码LP消息，近日，普尔科投资宣布旗下子公司上海半导体设备材料产业投资管理有限公司（简称“半导体设备材料”）新一期基金已完成首通，首通规模15亿元，并已在中国基金会协会登记，启动第一批项目投资。该基金为上海半导体设备与材料私募股权投资基金（简称“二期基

06-18
国行版PS5起售价3099元，黄牛生意可要“爽”了

4月29日，PlayStation中国发布会终于来了。自2019年11月19日全球发售以来，由于疫情和产能不足，PS5的价格一直居高不下，甚至首批价格被炒至近10元。今天发布的国行版PS5无疑是很多玩家“走出溢价汪洋”的希望。发布会上公布了国行版PS5的官方售价。光驱版售价人民币1,00

06-21
抖音收藏功能即将上线，首批权限将向知识创造者开放

据投资界9月9日消息，为了更好地支持创作者传授知识和用户学习知识，抖音有新产品行动。 9月9日，在“DOU知识计划”2.0发布会上，抖音宣布即将推出收藏功能，让知识短视频的创造和学习更加系统化。据抖音产品经理介绍，第一期的收藏功能支持抖音PC端创作、App端查看。功能上

06-17
SEMI发布半导体晶圆设备信息安全标准加速智能制造

据台媒《经济日报》报道，国际半导体工业协会（SEMI）于12月28日发布首个半导体晶圆设备信息安全标准，预计将加快高技术制造业安全化、智能化、数字化步伐。据台湾媒体报道，国际半导体工业协会（SEMI）于12月28日发布首个半导体晶圆设备安全标准，有望加快高科技制造安全化

06-08
智联招聘正式提交IPO文件并在纽交所挂牌上市，

智联招聘正式递交IPO文件并在纽交所挂牌上市。对于 ZPIN。发行价格区间为每股12.5-14.5美元。

06-18
氪空间完成10亿元融资，IDG资本、歌斐资产、逸星资本联合领投，

据投资界5月15日消息，氪空间宣布完成10亿元融资，由IDG资本、歌斐资产、耀明资本领投。共同主导投资。本次融资后，氪空间确立了打造“全周期企业办公服务商”的新战略。在新战略指导下，氪空间将完成从“联合办公”到“综合办公服务+新资产管理”的商业模式升级，氪空间

06-18
Twitter靠什么统治国家？数字先锋爱沙尼亚启动AI治理

爱沙尼亚是一个波罗的海国家，拥有1万人口和1万公顷土地，其中一半是森林。然而，对于一个小国来说，爱沙尼亚在国际舞台上却令人印象深刻。该国政府已将数字化视为节省成本和平衡权力的手段，吸引了世界各地领导人、学者和风险投资家的关注。据报道，数字化进程每年为爱沙

06-18