Stellantis致力于供应安全和创新
06-06
GPT、DALL·E、Sora,为什么OpenAI能跑通所有AGI技术栈? 远景资本远景资本微信IDvisionpluscapital关于特色远景资本公共平台汇聚创新趋势,以分享启发02-20 17:44北京以下文章来自方正园作者方正园方正园。
来自极客公园,聚焦科技创业,聊“现实问题”。
Sora的出现,再次证明了OpenAI让计算机模拟真实物理世界的雄心和对自己技术路线的坚持。
从OpenAI发布的Sora技术报告中,我们可以看到OpenAI在大语言模型训练方面大量复用了以往的成功经验。
从文本生成模型GPT、文生图模型DALLE,到文生视频模型Sora,OpenAI可以说成功贯穿了所有AGI技术栈。
为什么选择 OpenAI 而不是 Google 和 Meta? SIY.Z,加州大学伯克利分校(UC Berkeley)计算机科学博士、知乎作者,从技术实现的角度分析了Sora成功的一些原因,分析了OpenAI能够跑通的原因我从业务和技术趋势的角度审视了整个技术栈,并试图预测OpenAI下一步的进展。
朴正恩授权其转载并进行了部分删除。
现在把这篇文章分享给大家。

??01 Sora技术解析:借鉴LLM的成功经验。
我不会详细介绍Sora有多么出色和真实。
我可以用一句话来概括:只要从视频中取出一帧,效果就不会亚于Dalle。
-3 精心生成一张图片,这些图片放在一起就可以形成一个基本符合现实世界物理逻辑的视频。
而且,Sora自己其实也可以做图像生成,但他有点大材小用了。
如果一定要用一个词来表达OpenAI的核心技术的话,我认为是缩放定律——即如何保证模型越大、数据越多,效果越好。
Sora也不例外。
Sora的贡献可以用一句话来概括:凭借充足的数据、高质量的标注、灵活的编码,基于Transformer+扩散模型的架构不断建立标度律。
从Sora的技术报告*可以看出,OpenAI实现标度律的思路实际上很大程度上遵循了大型语言模型的经验。
* Sora使用了多少数据?不出意外,OpenAI在整个技术分析中根本没有提及数据,这也太CloseAI了。
但鉴于内容的丰富性(例如,它甚至可以生成相当连贯的 Minecraft 游戏视频),我猜测很可能是大量 YouTube 视频,并且不排除合成数据(例如 3D 渲染图、 ETC。
)。
未来有可能使用整个YouTube视频来训练视频生成模型,就像大家使用Common Crawl来训练大型语言模型一样。
灵活的编码(视觉补丁) 在大型语言模型的构建中,一个非常重要的部分是它的分词器。
分词器可以将任意长度和内容的文本编码为语言模型可以直接处理(输入/输出)的对象,即嵌入。
Sora中embeddings的对应部分称为视觉补丁,tokenizer对应视频压缩网络,应该是某种卷积VAE(文章没有具体说明是否是VQ-VAE)。
具体方法是使用视频压缩网络(视觉编码器)首先同时压缩输入视频的时间和空间维度,将其编码为与视频大小成正比的3D视觉块数组,然后将其扩展为按一定顺序排列的一维数组。
的 patch,输入到 Transformer 模型中(具体方法应该参考可以生成 xp(横屏)- xp(竖屏)之间任意形状的视频。
这也使得 OpenAI 可以在早期使用低分辨率视频。
反复试验。
OpenAI尝试使用固定的分辨率,这带来了一个明显的问题——这个数据的偏差会带入模型中,导致模型生成大量带有帧外内容的视频。
高质量标注与DALLE 3相同。
OpenAI使用内部工具(可能基于GPT4-v)对视频进行详细描述,提高模型服从提示的能力,以及视频的质量(以及作为正确显示视频中文本的能力))。
我认为这是一个非常关键的点,也是OpenAI的王牌,对于视频尤其重要。
原因很简单,可以从两个角度来解释:(1)神经网络是单射函数,拟合从文本到视频的映射。
视频是非常动态的,即它具有很大的取值范围。
为了学好这个函数,定义域需要很大、很丰富,这就需要复杂的提示。
?(2)详细的文本也迫使神经网络学习文本到视频内容的映射,加强对提示的理解和服从。
另一个细节:这种详细的描述会导致使用上的偏差——用户描述比较短。
与DALL E 3一样,OpenAI使用GPT来增强用户描述来改善这个问题,并增加用户体验和视频生成的多样性。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-06
06-17
06-18
06-18
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态