首页 > 科技未来 > 内容

GPT、DALLE、Sora,为什么OpenAI能跑通所有AGI技术栈?

发布于:2024-06-18 编辑:匿名 来源:网络

GPT、DALL·E、Sora,为什么OpenAI能跑通所有AGI技术栈? 远景资本远景资本微信IDvisionpluscapital关于特色远景资本公共平台汇聚创新趋势,以分享启发02-20 17:44北京以下文章来自方正园作者方正园方正园。

来自极客公园,聚焦科技创业,聊“现实问题”。

Sora的出现,再次证明了OpenAI让计算机模拟真实物理世界的雄心和对自己技术路线的坚持。

从OpenAI发布的Sora技术报告中,我们可以看到OpenAI在大语言模型训练方面大量复用了以往的成功经验。

从文本生成模型GPT、文生图模型DALLE,到文生视频模型Sora,OpenAI可以说成功贯穿了所有AGI技术栈。

为什么选择 OpenAI 而不是 Google 和 Meta? SIY.Z,加州大学伯克利分校(UC Berkeley)计算机科学博士、知乎作者,从技术实现的角度分析了Sora成功的一些原因,分析了OpenAI能够跑通的原因我从业务和技术趋势的角度审视了整个技术栈,并试图预测OpenAI下一步的进展。

朴正恩授权其转载并进行了部分删除。

现在把这篇文章分享给大家。

GPT、DALLE、Sora,为什么OpenAI能跑通所有AGI技术栈?

??01 Sora技术解析:借鉴LLM的成功经验。

我不会详细介绍Sora有多么出色和真实。

我可以用一句话来概括:只要从视频中取出一帧,效果就不会亚于Dalle。

-3 精心生成一张图片,这些图片放在一起就可以形成一个基本符合现实世界物理逻辑的视频。

而且,Sora自己其实也可以做图像生成,但他有点大材小用了。

如果一定要用一个词来表达OpenAI的核心技术的话,我认为是缩放定律——即如何保证模型越大、数据越多,效果越好。

Sora也不例外。

Sora的贡献可以用一句话来概括:凭借充足的数据、高质量的标注、灵活的编码,基于Transformer+扩散模型的架构不断建立标度律。

从Sora的技术报告*可以看出,OpenAI实现标度律的思路实际上很大程度上遵循了大型语言模型的经验。

* Sora使用了多少数据?不出意外,OpenAI在整个技术分析中根本没有提及数据,这也太CloseAI了。

但鉴于内容的丰富性(例如,它甚至可以生成相当连贯的 Minecraft 游戏视频),我猜测很可能是大量 YouTube 视频,并且不排除合成数据(例如 3D 渲染图、 ETC。

)。

未来有可能使用整个YouTube视频来训练视频生成模型,就像大家使用Common Crawl来训练大型语言模型一样。

灵活的编码(视觉补丁) 在大型语言模型的构建中,一个非常重要的部分是它的分词器。

分词器可以将任意长度和内容的文本编码为语言模型可以直接处理(输入/输出)的对象,即嵌入。

Sora中embeddings的对应部分称为视觉补丁,tokenizer对应视频压缩网络,应该是某种卷积VAE(文章没有具体说明是否是VQ-VAE)。

具体方法是使用视频压缩网络(视觉编码器)首先同时压缩输入视频的时间和空间维度,将其编码为与视频大小成正比的3D视觉块数组,然后将其扩展为按一定顺序排列的一维数组。

的 patch,输入到 Transformer 模型中(具体方法应该参考可以生成 xp(横屏)- xp(竖屏)之间任意形状的视频。

这也使得 OpenAI 可以在早期使用低分辨率视频。

反复试验。

OpenAI尝试使用固定的分辨率,这带来了一个明显的问题——这个数据的偏差会带入模型中,导致模型生成大量带有帧外内容的视频。

高质量标注与DALLE 3相同。

OpenAI使用内部工具(可能基于GPT4-v)对视频进行详细描述,提高模型服从提示的能力,以及视频的质量(以及作为正确显示视频中文本的能力))。

我认为这是一个非常关键的点,也是OpenAI的王牌,对于视频尤其重要。

原因很简单,可以从两个角度来解释:(1)神经网络是单射函数,拟合从文本到视频的映射。

视频是非常动态的,即它具有很大的取值范围。

为了学好这个函数,定义域需要很大、很丰富,这就需要复杂的提示。

?(2)详细的文本也迫使神经网络学习文本到视频内容的映射,加强对提示的理解和服从。

另一个细节:这种详细的描述会导致使用上的偏差——用户描述比较短。

与DALL E 3一样,OpenAI使用GPT来增强用户描述来改善这个问题,并增加用户体验和视频生成的多样性。

GPT、DALLE、Sora,为什么OpenAI能跑通所有AGI技术栈?

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • Stellantis致力于供应安全和创新

    Stellantis致力于供应安全和创新

    半导体核心技术编译Stellantis的战略包括与芯片制造商就关键半导体和零部件的采购达成协议,以及对未来芯片需求的全面了解。 半导体是当今 Stellantis 汽车以及即将推出的新型先进 STLA 汽车和以纯电动汽车为中心的技术平台的性能、安全性和客户功能的关键。 随着汽车行业对半

    06-06

  • 28亿,安徽首支S基金发起

    28亿,安徽首支S基金发起

    投资界(ID:pedaily)消息,4月16日,安徽首支“S基金”——合肥共创接力创业投资基金合伙企业(有限合伙)完成注册成立兴泰资本牵头设立并担任基金管理人,规模28亿元。 是合肥市国有“3+N”系列产业基金的重要组成部分。 在合肥市国资委统筹协调下,兴泰资本携手合肥百达、

    06-17

  • 厦门科技创新基金扩大至300亿元

    厦门科技创新基金扩大至300亿元

    投资界(ID:pedaily)3月1日消息,为贯彻落实中央、省、市经济工作会议精神,鼓励扩大产业有效投资,为引导企业加快扩大产能,近日,厦门市财政局、厦门市工业和信息化局联合下发《关于进一步完善技术创新基金支持企业增资扩产的通知》。 《关于进一步完善技术创新基金支持企

    06-18

  • 创业不是单打独斗,团队是创业的基础

    创业不是单打独斗,团队是创业的基础

    创业从来都不是一件容易的事,大多数创业都会失败,人们总是看到成功人士的成功,却忽略了他们背后的曲折和奋斗。 大众创业时代如何成功创业?今天的故事从一个“随机”的公司名称开始。 2006年,张涛和他的朋友们创立了安徽灵客网络科技有限公司。 创立灵客的初衷是利用互联

    06-18

  • 研究显示:字节跳动可能是最吸引求职者的公司

    研究显示:字节跳动可能是最吸引求职者的公司

    3月29日,中国青年报发布的一份求职问卷调查显示,大学生最兴奋的前三名公司是字节跳动和华为。 和阿里巴巴。 这是中国青学传媒向全国知名大学生人士发起的“大学生求职潜力”问卷调查。 此前,脉脉数据研究院的分析也指出,“字节跳动是求职者最关注的公司,其人才需求约为第

    06-17

  • CloudX产业数字化丨阿里云星云创业扶持计划-数智未来·智能制造升级新图景活动沙龙成功举办!

    CloudX产业数字化丨阿里云星云创业扶持计划-数智未来·智能制造升级新图景活动沙龙成功举办!

    8月27日,“阿里云星云创业扶持计划——数智未来智能制造升级新图景”在线上成功举办。 本次活动由重庆两江新区经济运行局、重庆两江新区科技创新局指导,阿里云创新中心、重庆轻控科创技术服务有限公司承办。 本次沙龙邀请阿里云创新中心渠道合作总监张宇作为活动嘉宾,阿里

    06-17

  • 助力梦想vivo与宋仲基同行,恭喜考生考入高考金榜

    助力梦想vivo与宋仲基同行,恭喜考生考入高考金榜

    从2014年开始,vivo连续两年在高考期间开展#助力梦想vivo同行#活动,助力学子高考期间实现梦想,联合线下数十万家vivo专卖店,共同寻找当地的高考状元,并送给他一部手机作为鼓励。 这两年,我们帮助了当地的高考状元,覆盖了全国很多城市。 不仅获得了业界的一致好评,也取得

    06-18

  • 广州实业投资集团领投中科航天投资5亿元,打造南方商业航天重要制造基地

    广州实业投资集团领投中科航天投资5亿元,打造南方商业航天重要制造基地

    投资圈(ID:pedaily)据4月23日消息,广州实业投资集团近期投资500领投广州中科航天航天探索技术有限公司(以下简称中国航天)C轮融资万元。 这是广州实业投资集团在商业航天领域的战略投资项目之一。 中国航天是由中国科学院力学研究所培育和孵化的。 主要从事空间技术探索

    06-18

  • vivo新旗舰曝光,这款手机有一个什么样的“镜像世界”

    vivo新旗舰曝光,这款手机有一个什么样的“镜像世界”

    今日,vivo在官方微博晒出一张图片,称“探索新镜像世界,vivo新旗舰”,暗示vivo新旗舰手机,专注于拍照,即将发布。 vivo发布的图片显示了两颗类似透镜的行星。 这是否意味着这款新旗舰将配备双镜头?事实上,如果vivo新旗舰配备双镜头,也就不足为奇了。 因为vivo这几年一

    06-17

  • 微软对OpenAI的投资或将受到欧盟反垄断审查;董宇辉新账号《与辉同行》首播,位列抖音带货榜第一;美国52年来首次登月

    微软对OpenAI的投资或将受到欧盟反垄断审查;董宇辉新账号《与辉同行》首播,位列抖音带货榜第一;美国52年来首次登月

    微软投资OpenAI或将受到欧盟反垄断审查。 1月10日消息,欧盟反垄断监管机构欧盟委员会周二表示,微软对AI聊天机器人ChatGPT开发商OpenAI的财务支持可能会受到欧盟并购法规的约束。 去年,微软承诺向 OpenAI 投资超过 1 亿美元,但不会获得投票权。 微软还表示,它不拥有 Open

    06-17

  • 国家外汇管理局:4月份外资净增持境内股票和债券195亿美元,同比增长3%

    国家外汇管理局:4月份外资净增持境内股票和债券195亿美元,同比增长3%

    国家外汇管理局副局长新闻发言人王春英:供给4月份我国外汇市场需求更加平衡。 跨境双向投资合理有序。 从流入渠道看,对华直接投资净流入保持稳定增长;外资净增持境内股票和债券1亿美元,同比增长3%。 从流出渠道看,我国外商直接投资净流出规模与去年同期基本持平;港股通

    06-18

  • 压垮创业者的三座大山

    压垮创业者的三座大山

    近日,《中国企业家》杂志采访了“花加”创始人王柯,标题是《花加创始人:微信仅剩的23块零钱也被封了》。 我很高兴业界能够如此高度关注创业家的现状。 今天的创新创业发展到了新的高度,但也积累了尖锐的问题。 我们要把问题摆到桌面上来,充分沟通,友好地一一解决。 文章

    06-18