首页 > 科技未来 > 内容

GPT、DALLE、Sora,为什么OpenAI能跑通所有AGI技术栈?

发布于:2024-06-18 编辑:匿名 来源:网络

GPT、DALL·E、Sora,为什么OpenAI能跑通所有AGI技术栈? 远景资本远景资本微信IDvisionpluscapital关于特色远景资本公共平台汇聚创新趋势,以分享启发02-20 17:44北京以下文章来自方正园作者方正园方正园。

来自极客公园,聚焦科技创业,聊“现实问题”。

Sora的出现,再次证明了OpenAI让计算机模拟真实物理世界的雄心和对自己技术路线的坚持。

从OpenAI发布的Sora技术报告中,我们可以看到OpenAI在大语言模型训练方面大量复用了以往的成功经验。

从文本生成模型GPT、文生图模型DALLE,到文生视频模型Sora,OpenAI可以说成功贯穿了所有AGI技术栈。

为什么选择 OpenAI 而不是 Google 和 Meta? SIY.Z,加州大学伯克利分校(UC Berkeley)计算机科学博士、知乎作者,从技术实现的角度分析了Sora成功的一些原因,分析了OpenAI能够跑通的原因我从业务和技术趋势的角度审视了整个技术栈,并试图预测OpenAI下一步的进展。

朴正恩授权其转载并进行了部分删除。

现在把这篇文章分享给大家。

GPT、DALLE、Sora,为什么OpenAI能跑通所有AGI技术栈?

??01 Sora技术解析:借鉴LLM的成功经验。

我不会详细介绍Sora有多么出色和真实。

我可以用一句话来概括:只要从视频中取出一帧,效果就不会亚于Dalle。

-3 精心生成一张图片,这些图片放在一起就可以形成一个基本符合现实世界物理逻辑的视频。

而且,Sora自己其实也可以做图像生成,但他有点大材小用了。

如果一定要用一个词来表达OpenAI的核心技术的话,我认为是缩放定律——即如何保证模型越大、数据越多,效果越好。

Sora也不例外。

Sora的贡献可以用一句话来概括:凭借充足的数据、高质量的标注、灵活的编码,基于Transformer+扩散模型的架构不断建立标度律。

从Sora的技术报告*可以看出,OpenAI实现标度律的思路实际上很大程度上遵循了大型语言模型的经验。

* Sora使用了多少数据?不出意外,OpenAI在整个技术分析中根本没有提及数据,这也太CloseAI了。

但鉴于内容的丰富性(例如,它甚至可以生成相当连贯的 Minecraft 游戏视频),我猜测很可能是大量 YouTube 视频,并且不排除合成数据(例如 3D 渲染图、 ETC。

)。

未来有可能使用整个YouTube视频来训练视频生成模型,就像大家使用Common Crawl来训练大型语言模型一样。

灵活的编码(视觉补丁) 在大型语言模型的构建中,一个非常重要的部分是它的分词器。

分词器可以将任意长度和内容的文本编码为语言模型可以直接处理(输入/输出)的对象,即嵌入。

Sora中embeddings的对应部分称为视觉补丁,tokenizer对应视频压缩网络,应该是某种卷积VAE(文章没有具体说明是否是VQ-VAE)。

具体方法是使用视频压缩网络(视觉编码器)首先同时压缩输入视频的时间和空间维度,将其编码为与视频大小成正比的3D视觉块数组,然后将其扩展为按一定顺序排列的一维数组。

的 patch,输入到 Transformer 模型中(具体方法应该参考可以生成 xp(横屏)- xp(竖屏)之间任意形状的视频。

这也使得 OpenAI 可以在早期使用低分辨率视频。

反复试验。

OpenAI尝试使用固定的分辨率,这带来了一个明显的问题——这个数据的偏差会带入模型中,导致模型生成大量带有帧外内容的视频。

高质量标注与DALLE 3相同。

OpenAI使用内部工具(可能基于GPT4-v)对视频进行详细描述,提高模型服从提示的能力,以及视频的质量(以及作为正确显示视频中文本的能力))。

我认为这是一个非常关键的点,也是OpenAI的王牌,对于视频尤其重要。

原因很简单,可以从两个角度来解释:(1)神经网络是单射函数,拟合从文本到视频的映射。

视频是非常动态的,即它具有很大的取值范围。

为了学好这个函数,定义域需要很大、很丰富,这就需要复杂的提示。

?(2)详细的文本也迫使神经网络学习文本到视频内容的映射,加强对提示的理解和服从。

另一个细节:这种详细的描述会导致使用上的偏差——用户描述比较短。

与DALL E 3一样,OpenAI使用GPT来增强用户描述来改善这个问题,并增加用户体验和视频生成的多样性。

GPT、DALLE、Sora,为什么OpenAI能跑通所有AGI技术栈?

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 勤思科技获数千万元天使轮融资,进一步拓展海事、航道运营综合智能平台发展

    勤思科技获数千万元天使轮融资,进一步拓展海事、航道运营综合智能平台发展

    据投资界(ID:pedaily)5月13日消息,广州勤思网络科技有限公司勤思科技有限公司(简称“勤思科技”)近日完成天使轮融资,融资金额数千万元,本轮领投方为广州南沙中盈明星基金。 据悉,本轮融资本轮融资将用于进一步拓展公司海事航道综合智能平台的发展,加快在长江、环渤

    06-17

  • 中微资本:亚洲VC的成长之路

    中微资本:亚洲VC的成长之路

    2017年的一个周末,中微资本合伙人第一次见到了讯石科技CEO金良。 姚安民印象深刻——这是一家专注于3D打印技术、为牙科提供数字化椅旁解决方案的初创公司。 虽然其总部位于浙江绍兴,但其3D打印设备在北美非常受欢迎,市场份额超过50%。 此前,中维资本在梳理3D打印行业国内

    06-18

  • 光电集成芯片公司“齐芯光电”完成3.5亿元Pre-IPO轮融资,重庆南方基金投资

    光电集成芯片公司“齐芯光电”完成3.5亿元Pre-IPO轮融资,重庆南方基金投资

    投资圈(ID:pedaily)8月8日消息,领先的齐芯光电科技股份有限公司齐芯光电集成芯片公司(以下简称“齐芯光电”)宣布完成3.5亿元Pre-IPO轮融资。 投资方为深圳市投控东海投资管理有限公司(以下简称“深投控”),系深圳市投资控股有限公司(“投控东海”管理的重庆南方基金

    06-18

  • 你在社交平台分享的照片下一秒可能会成为AI成人内容的提要

    你在社交平台分享的照片下一秒可能会成为AI成人内容的提要

    上世纪末的作品中《攻壳机动队》,全身被改造成了假肢的苏子质疑他是否还存在。 身体、记忆、与他人的关系,当这些东西可以被复制时,就不能用来作为物质生活的论据。 当人工智能歌手走红时,孙燕姿在回应中也提出了类似的观点。 你并不特别,你已经是可预测的,不幸的是你也

    06-21

  • zendesk海外客服系统的其他建议

    zendesk海外客服系统的其他建议

    .wp-block-column h3{margin-left:0} 对于需要在海外市场提供客户服务的企业来说,选择合适的海外客服系统至关重要。 除了zendesk客服系统之外,还有其他值得推荐的海外客服系统,同样强大且备受认可。 我们来看看这些建议。 Salesforce Service Cloud:Salesforce是全球领先

    06-17

  • 智能营销SaaS服务商“励销云”获数亿元B+轮融资

    智能营销SaaS服务商“励销云”获数亿元B+轮融资

    投资社区(ID:pedaily)据6月16日消息,全流程智能营销SaaS服务商励销云又获数百万元融资数百万元B+轮融资。 本轮融资由澳洲电信领投,大晨财智、58参奇资本、老股东君联资本跟投。 资金将主要用于产品研发、平台建设和市场推广。 阅微资本担任财务顾问资本独家一轮融资。 此

    06-18

  • 苹果前首席设计官的最新作品来了,一款43万的硬件产品

    苹果前首席设计官的最新作品来了,一款43万的硬件产品

    今年是英国著名音响品牌、高保真先锋Linn成立50周年。 它有一个特别的生日庆祝活动:与苹果前首席设计官 Jony Ive 合作推出限量版黑胶唱片机。 这也意味着Jony Ive在离开苹果并成立一家名为LoveFrom的新公司后终于迎来了自己的第一个硬件项目。 Linn的技术创新和LoveFrom的设

    06-21

  • 梅州产业发展基金注册成功,促进梅州与大湾区区域协调互补

    梅州产业发展基金注册成功,促进梅州与大湾区区域协调互补

    投资界动态(ID:pedaily)梅州产业发展基金(全称:“梅州嘉盈产业发展基金合伙企业》)于2018年2月9日顺利通过中国证券投资基金业协会注册。 该基金是根据《梅州市产业发展基金暨广东省粤东西北产业转移基金梅州子基金组建总体方案》精神,由广东嘉盈控股集团有限公司(简称

    06-18

  • 天合化工上市 天达、摩根士丹利和太盟投资集团获得退出

    天合化工上市 天达、摩根士丹利和太盟投资集团获得退出

    天合化工上市公司天大、摩根士丹利、太盟投资集团获退出。 2019年6月20日,天合化工集团股份有限公司在香港主板上市。 天合化工集团有限公司成立于 。 2019年6月20日,天合化工集团股份有限公司在香港主板上市。 天合化工集团股份有限公司是一家总部位于中国辽宁的特种化学品

    06-18

  • 电池寿命只能靠堆叠电池? OPPO Watch团队让不可能成为可能

    电池寿命只能靠堆叠电池? OPPO Watch团队让不可能成为可能

    智能手表有一个“不可能三角”:智能、续航、轻薄。 大多数产品只能选择其中一种,或者最多选择三种中的两种。 市场上几乎没有产品可以全部选择。 产品。 最典型的例子就是以运动健康为核心的轻智能运动手表。 它的电池寿命很长,但不够智能,而且往往不够轻薄。 在这个“不可

    06-21

  • 平台机器人客服:降低企业成本、提升服务水平的明智选择

    平台机器人客服:降低企业成本、提升服务水平的明智选择

    .wp-block-column h3{margin-left:0} 随着技术的不断发展,平台机器人客服逐渐成为强大的工具为企业提高服务效率助手。 无论您是传统企业还是新兴行业,客服机器人都能给您的业务带来翻天覆地的变化。 在选择合适的客服机器人时,成本成为企业关注的重要因素之一。 在当前激烈

    06-18

  • 如果MacBook使用了这款Cherry蝴蝶键盘,结果可能会大不相同

    如果MacBook使用了这款Cherry蝴蝶键盘,结果可能会大不相同

    不久前,德国键盘制造商Cherry发布了MX Ultra Low Profile机械键盘轴。 最大的亮点是其超薄设计,高度仅为3.5英寸。 mm,该轴最早会安装在Alienware m15 R4/m17 R4系列笔记本电脑上。 这款笔记本电脑仍在预售中。 事实上,将机械键盘装入笔记本电脑并不是什么新鲜事。 甚至可

    06-21