昌红科技拟参与投资设立医疗产业并购基金,总规模1亿元
06-18
我们来谈谈Sora有多受欢迎。
其中一个生成的视频在网上疯传。
作者小哥新上传的效果很快就吸引了围观。
失败案例让人一看就上瘾。
近万人点赞。
学术界更是兴奋不已,各界大佬纷纷打开麦克风。
纽约大学助理教授谢赛宁(《ResNeXt》作者)直言Sora将改写整个视频生成领域。
NVIDIA高级研究科学家Jim Fan喊道,这就是视频生成的GPT-3时刻! 尤其是技术报告发布后,讨论变得更加有趣。
因为很多细节都不是很清楚,大佬只能猜测。
包括“Sora是数据驱动的物理引擎”、“Sora是建立在DiT模型之上,参数可能只有30亿”等等。
那么,Sora为何如此神奇呢?这对视频生成领域意味着什么?不,很快就会有一些可能的答案。
视频生成的 GPT-3 矩 一般来说,Sora是一种在不同时长、分辨率和长宽比的视频和图像上训练的扩散模型。
它还使用了 Transformer 架构,这是一种“扩散模型”。
关于技术细节,官方报告简单提到了以下6点:一是视觉数据的“创新转化”。
与大语言模型中的代币不同,Sora使用“补丁”来统一不同的视觉数据表达。
如图下图中,在具体操作中,模型首先将视频压缩到低维潜在空间,然后将它们的表示分解为时空补丁,从而将视频转换为补丁(啊,这个,看来我。
说完就没说什么了)第二是训练一个视频压缩网络,它可以降低视觉数据的维度,输入视频,输出一个时空压缩的潜在表示,相应的,OpenAI也训练了这个。
第三个是时空潜在补丁技术,给定压缩的输入视频,该模型提取一系列时空补丁,作为 Transformer 的令牌。
正是这种基于补丁的表示形式使Sora能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。
在推理时,模型通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。
第四是发现扩展的Transformer也适合视频生成。
OpenAI在这项研究中发现,扩散Transformer在视频模型领域也能实现高效扩展。
下图显示,随着训练资源的增加,样本质量显着提高(固定种子和输入条件)。
五是关于视频多元化的一些启示。
与其他机型相比,Sora可以容纳各种尺寸的视频,包括不同的分辨率、时长、长宽比等,还对构图和布局进行了更多优化,如下图所示。
业内很多类似模型都会盲目地将输出视频裁剪成正方形,导致主题元素仅部分显示,但Sora却可以捕捉到完整的场景:报告指出,这一切都得益于 OpenAI 直接在原始维度上进行训练的视频数据。
最后,还有语言理解方面的努力。
在这里,OpenAI采用了DALL·E 3中引入的重新标注技术并将其应用到视频中。
除了使用高度描述性的视频描述进行训练外,OpenAI还使用GPT将用户的简短提示转换为更长的详细描述,然后发送给Sora。
这个系列让Sora的文字理解能力相当强大。
技术的介绍报告只提到了这么多,剩下的文字重点是Sora的一系列效果演示,包括文字转视频、视频转视频、图像生成等。
可见,“补丁”如何设计等核心问题,文中并没有详细解释。
有网友抱怨OpenAI还是那么“近”。
这也是大佬和网友们有各种猜测的原因。
谢赛宁的分析:1.Sora应该以DiT,扩散变压器为基础。
简而言之,DiT 是一个具有 Transformer 主干的扩散模型,它 = [VAE 编码器 + ViT + DDPM + VAE 解码器]。
谢赛宁推测Sora不应该对此有太多花哨的额外内容。
2、关于视频压缩网络,Sora可能会采用VAE架构。
不同之处在于它是用原始视频数据进行训练的。
由于 VAE 是一个 ConvNet,因此 DiT 从技术上来说是一个混合模型。
3.Sora可能有大约30亿个参数。
谢赛宁认为,这种猜测不无道理,因为Sora可能并不真的像人们想象的那样需要那么多GPU来进行训练。
如果真是这样的话,Sora后期的迭代将会非常快。
NVIDIA AI科学家Jim Fan认为:Sora应该是一个数据驱动的物理引擎。
Sora是现实或幻想世界的模拟。
它使用一些去噪和梯度下降来学习复杂的渲染、“直观”物理、远景推理和语义基础。
例如,在这个效果中,提示词是两艘海盗船在一杯咖啡中航行和战斗的逼真特写视频。
Jim Fan分析说,Sora首先需要提供两种3D资产:不同装饰的海盗船;文本转3D的隐含问题必须在势空间中解决;考虑到咖啡液的流动,两艘船必须避开彼此的航线。
力学,保持真实感,带来追光般的效果。
有人认为Sora只是在二维层面上控制像素。
Jim Fan显然不同意这种说法。
他觉得这就像说 GPT-4 不理解编码,只对字符串进行采样。
不过,他也表示,Sora目前还无法取代游戏引擎开发商,因为其对物理学的理解还远远不够,还存在非常严重的“幻觉”。
于是他提出Sora是视频生成的GPT-3时刻。
早在 2010 年,GPT-3 并不是一个伟大的模型,但它有力地证明了情境学习的重要性。
所以不要纠结于GPT-3的缺点,多思考GPT-4。
此外,一些大胆的网友甚至怀疑Sora使用了虚幻引擎5来创建一些训练数据。
他甚至一一分析了几个视频中的效果来支持他的猜想:然而反驳他的人也不少。
理由包括:“人走路的镜头明显很奇怪,不可能是引擎的效果。
” “YouTube上有无数的视频。
各种视频有数十亿小时,ue5没有多大用处”……我们暂时先放一边。
最后,有网友表示,虽然不期待OpenAI提供更多细节,但还是想知道Sora在视频编码、解码以及时间插值的附加模块方面是否有任何创新。
OpenAI的估值为1亿美元。
在Sora引起全球关注的同时,OpenAI的估值也再次上涨,成为全球第三高估值的科技初创公司。
随着最新要约收购的完成,OpenAI的估值正式达到1亿美元,仅次于字节跳动和SpaceX。
该交易由风险投资公司 Thrive Capital 牵头,允许外部投资者购买部分员工的股票。
OpenAI去年初完成了一项类似的交易,当时估值为1亿美元。
Sora发布后,GPT-4 Turbo 还大幅降低了速率限制并提高了 TPM(*每分钟代币数量),实现了较之前 2 倍的提升。
布罗克曼总统也亲自推动。
但与此同时,OpenAI申请注册“GPT”商标失败。
原因是“GPT”太通用了。
还有一点值得一提的是,眼尖的网友发现Stability AI昨天也发布了SVD 1.1。
但Sora似乎在发布博客后不久就迅速删除了该博客。
有人恶评,这不是翻版汪峰吗?它不应该被删除,而应该被带回来以获得人气。
这仍然是一个笑话。
有人感叹,Sora一来,立刻就明白了张楠为什么要主攻电影剪辑。
当然还有卖家大军,他们也趁着消息,抢占了商机。
【本文由投资社区合作伙伴微信公众号授权:量子比特。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

趋势和行业变化,以及对未来技术趋势的洞察。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态