首页 > 科技未来 > 内容

Sora爆炸,典型的OpenAI式胜利

发布于:2024-06-18 编辑:匿名 来源:网络

今年春节,OpenAI推出ChatGPT,迅速引爆资本圈和AI圈,从而拉开了AI航程。

今年,类似的故事正在发生。

2月16日凌晨,在没有任何警告和消息的情况下,OpenAI突然发布了自己的Vincent视频模型:Sora。

显然,这给整个AI行业带来了不小的震动。

与市面上现有的AI视频模型相比,Sora展现出了远超预期的能力:不仅直接将视频生成时长一次性提升了15倍,而且还大幅提升了视频内容的稳定性。

更重要的是,在发布的演示视频中,Sora展示了其对物理世界一些规律的理解,这也是以往Vincent视频模型的一大痛点。

Sora 发布的另一个有趣的事情是,为什么总是 OpenAI?要知道,在Sora发布之前,已有不少公司在探索AI视频模型,其中包括知名的Runway、Pika,也都取得了不错的进展。

但OpenAI仍然实现了降维。

这是典型的OpenAI胜利:聚焦AGI的目标,不局限于特定场景,通过Scaling Law,将生成式AI的“魔力”从文本延伸到视频和现实世界。

???????在这个过程中,AI创造的虚拟世界与现实世界的界限逐渐模糊,OpenAI也将离AGI的目标越来越近。

/ 01 / 降维攻击Sora 在Sora发布之前,公众对Vincent的视频解决方案并不陌生。

据知名投资机构a16z此前统计,截至年底,市场上公开的AI视频模型有21个,包括大家熟知的Runway、Pika、Genmo和Stable Video Diffusion等。

相比现有的AI视频模型,Sora的优势主要集中在以下几点:第一,视频时长大幅提升。

Sora 生成长达 1 分钟的超长视频,比市场上所有 AI 视频模型都要长得多。

据a16z统计,现有AI视频模型制作的视频长度大多在10秒以内。

之前流行的《Runway Gen 2》和《Pika》制作的视频长度分别只有4秒和3秒。

60秒的视频长度也意味着它基本满足抖音etc短视频平台的内容要求。

二是视频内容的稳定性。

对于人工智能视频,它们基本上生成帧并在帧之间创建时间连贯的动画。

但由于他们对三维空间以及物体如何相互作用没有固有的理解,人工智能视频经常出现人物扭曲和变形的情况。

例如,经常发生这样的情况:剪辑的前半部分显示一个人在街上行走,但后半部分融化到地面 - 该模型没有“硬”表面的概念。

由于缺乏场景的三维概念,从不同角度生成相同的剪辑也很困难。

但《Sora》的独特之处在于,它制作的60秒视频不仅做到了一枪到底,而且视频中的女主角和背景人物都取得了惊人的一致性。

各种镜头可以随意切换,人物不变。

极高的稳定性。

这是Sora发布的演示视频: 提示:一位时尚女性走在充满温暖霓虹灯和动画城市标志的东京街道上。

她穿着黑色皮夹克、红色长裙和黑色靴子,拎着一个黑色钱包。

她戴着太阳镜,涂着红色口红。

她走路自信又随意。

街道潮湿且反光,在彩色灯光照射下产生镜面效果。

许多行人在周围走动。

第三,其深度的语言理解能力使Sora能够准确识别用户指令,从而在生成的视频中呈现丰富的表情和生动的情感。

这种深刻的理解超越了简单的命令,Sora 还理解这些事物如何存在于物理世界中,甚至能够实现相当多的物理交互。

例如,以空对头发质地物理特性的理解为例。

皮克斯在制作主角苏利时,技术团队花了几个月的时间来呈现其头发柔软、起伏的质感。

开发了一种模拟数千根头发飘动的软件程序。

但现在空不需要任何人教导他就能轻松实现。

“它学习 3D 几何形状和一致性,”该项目的研究科学家蒂姆·布鲁克斯 (Tim Brooks) 说。

“这不是我们预先设定的东西——它完全是通过观察大量数据自然学习的。

”毫无疑问,相比其他“玩具级”视频生成AI,Sora在AI视频领域实现了降维。

/ 02 / 统一视觉数据 从技术角度来看,图像生成和视频生成的底层技术框架比较相似,主要包括循环神经网络、生成对抗网络(GAN)和自回归变压器。

,扩散模型。

与Runway、Pika等主流AI视频侧重于扩散模型不同,Sora采用了新的架构——Diffusion Transformer模型。

顾名思义,该模型结合了扩散模型和自回归模型的双重特征。

扩散变压器架构由加州大学伯克利分校的 William Peebles 和纽约大学的 Saining Xie 在 2017 年提出。

在这个新的架构中,OpenAI沿袭了之前大语言模型的思想,提出了一种使用Patch(视觉补丁)作为视频数据来训练视频模型的方法。

它是低维空间中的统一表达单位,有点像文本。

表单中的令牌。

LLM将所有文本、符号、代码抽象为Tokens,Sora将图片、视频抽象为Patch。

简单来说,OpenAI会将视频和图片切割成很多小块,就像拼图的每一块一样。

这些小碎片就是补丁。

每个补丁就像计算机学习中使用的一张小卡片。

每张卡片都有一点信息。

这样,OpenAI就可以将视频压缩到低维空间,然后利用扩散模型模拟物理过程中的扩散现象来生成内容数据,从充满随机噪声的视频帧变成清晰连贯的视频。

场景。

整个过程有点像把模糊的照片变得清晰。

根据OpenAI的说法,统一表示视觉数据的好处有两点: *、采样灵活性。

Sora 可以对宽屏 xp 视频、垂直 xp 视频以及介于两者之间的所有视频进行采样(如下面的 3 个视频)。

这使得 Sora 能够直接以其原生宽高比为不同设备创建内容,从而以较小的尺寸快速制作内容原型。

二是取景构图效果的提升。

经验表明,以原始长宽比训练视频可以改善构图和取景。

例如,将所有训练视频裁剪成正方形的常见模型有时会生成仅部分可见主题的视频。

Sora爆炸,典型的OpenAI式胜利

相比之下,空的视频构图有所改善。

为什么OpenAI能想到一种统一表示视觉数据的方法?除了技术原因之外,很大程度上得益于OpenAI、Pika、Runway对AI视频生成模型的认知差异。

/ 03 / 世界模型,通AGI之路 在Sora发布之前,AI视频生成往往被认为是AI应用最早的垂直落地场景之一,因为它很容易让人想到颠覆短视频、电影和电视/广告业。

正因为如此,几乎所有的AI视频生成公司都陷入了同质化竞争:过于关注更高的图像质量、更高的成功率和更低的成本,而不是更大的世界模型。

可以看到,Pika和Runway的视频时长都不超过4秒。

虽然画面可以足够优秀,但是物体的动态运动却并不好。

但OpenAI对AI视频生成的探索更像是在沿着另一条路线前进:通过世界模型,打通虚拟世界和现实世界的边界,实现真正的AGI。

OpenAI发布的Sora技术报告中有这样一句话:“我们相信Sora今天所展示的能力证明视频模型的不断扩展(Scaling)是发展物理和数字世界(包括物理世界)的重要因素。

世界模型是 Meta 首席科学家 Yann LeCun 于 2016 年 6 月首次提出的。

它的大致意思是可以将其理解为对真实物理世界的模拟。

机器能够像人类一样全面、准确地理解世界,尤其是当前物理世界中存在的诸多自然规律。

换句话说,OpenAI更愿意将Sora视为理解和模拟现实世界的模型基础。

AGI 的一个重要里程碑,而不是作为 AI 应用实施的场景,这意味着与其他玩家相比,OpenAI 总是从比问题更高维度的角度来看待问题。

实际上,这使得解决问题变得更加容易。

正如爱因斯坦所说,我们不能用创造问题时的思维来解决问题。

从这个角度来说,也可以解释为什么OpenAI总能时不时地给行业带来一点震撼。

虽然从目前来看,AI生成的视频仍然存在各种问题,比如模型很难准确模拟复杂场景的物理现象,也可能无法理解具体实例的因果关系等,不可否认的是,至少空已经开始了解一些物理学了。

世界的规则让眼见不再可信。

基于物理规则构建的世界的真实性遇到了前所未有的挑战。

当大型模型从过去的文本中学习模式时,它们开始从视频和现实世界中学习。

随着尺度法则逻辑在各个领域的出现,或许网络世界和物理世界的界限会变得更加模糊。

【本文由投资界合作伙伴微信公众号授权:读财经。

本平台仅提供信息存储服务。

】如有任何疑问,请联系投资界()。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

趋势和行业变化,以及对未来技术趋势的洞察。

Sora爆炸,典型的OpenAI式胜利

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 湖南湘投何正春:物流行业潜力巨大,并购退出渠道好

    湖南湘投何正春:物流行业潜力巨大,并购退出渠道好

    据投资界7月12日消息,在“第十三届中国股权投资中期论坛暨金融科技产业融合创新年会”上在清科集团主办的中期论坛上,湖南湘投高科技创业投资有限公司副总经理何正春介绍,他的公司成立于2007年,主要管理湖南省人民政府的资金。   他还简单介绍了目前备受关注的几个产业

    06-17

  • 迷你Mars完成数千万元A轮融资,中青旅独家投资

    迷你Mars完成数千万元A轮融资,中青旅独家投资

    投资界(ID:pedaily)1月27日消息,据36氪报道,一站式亲子空间迷你Mars已完成数千万元融资1万元A轮融资由中青旅独家投资。 据Mini Mars创始人及CEO成庭茂介绍,本轮资金将主要用于团队扩张、新产品设计开发、CRM系统开发等。 Mini Mars于2006年在上海成立,是一家一站式母公

    06-17

  • 区块链科技服务公司成都九宽科技完成1050万天使轮融资,由厦门硅谷火炬领投

    区块链科技服务公司成都九宽科技完成1050万天使轮融资,由厦门硅谷火炬领投

    据投资界11月12日消息,成都九宽科技有限公司(九宽科技为简称)已完成10000天使轮融资。 本轮融资由厦门硅谷火炬领投。 资金将用于区块链算法研究和应用产品开发的同时,还将重点用于市场营销,提升整体产品体验和服务能力。 九宽科技成立于2009年,一直致力于区块链领域相

    06-18

  • 马斯克:SpaceX星舰原型机SN10或本周试飞

    马斯克:SpaceX星舰原型机SN10或本周试飞

    据媒体报道,SpaceX首席执行官埃隆马斯克当地时间周日在推特上表示,其星舰原型机SN10极有可能在本周试飞。 美国联邦航空管理局正在调查周结束 SpaceX 星舰原型 SN9 试飞爆炸事件。 目前,SpaceX 正在等待 FAA 批准更新的许可证。 听,中小企业反馈平台。 倾听用户需求,倾听

    06-17

  • 无极教育云完成A轮融资

    无极教育云完成A轮融资

    据投资界9月28日消息,无极教育云近日宣布完成A轮融资,由华创投资旗下基金投资。 这将为无极教育进一步加大研发投入和人才引进,完善产品,拓展资源,为冲击在线教育行业第一梯队奠定坚实基础。 据了解,浙江无极互联网科技有限公司成立于2007年,主营业务为无极教育云平台

    06-17

  • 神秘穿山甲被“看见”六年后,一部科技“穿山甲”史

    神秘穿山甲被“看见”六年后,一部科技“穿山甲”史

    走穿山甲走过的路有多难? 铁匠定制的一把镰刀,是清理道路、砍除缠绕人的荆棘和杂草的必备品;精油和驱蚊水让人们远离各种蚊子;必需的水和干粮。 维持一天的体力;还有不期而遇的蛇、野猪等各种动物,常常给人带来惊吓和惊喜。 凭借着这种锐意进取的精神,生态环保专家、西

    06-18

  • 小米汽车:智能技术驱动的市场突破与未来愿景

    小米汽车:智能技术驱动的市场突破与未来愿景

    在近日的发布会上,小米汽车展示了其在智能汽车和智能家居领域的最新技术成果,特别是其智能语音助手“小爱同学”的先进功能。 小米汽车的市场表现同样抢眼,销售成绩骄人,用户支持强劲。 本文将对小米汽车的技术特点、市场策略、用户反馈以及未来发展规划进行深入分析。 技

    06-18

  • 法国科技物流平台Cubyn获1500万欧元D轮融资,由Euro Ruiz基金、法国BPI银行、360资本等投资

    法国科技物流平台Cubyn获1500万欧元D轮融资,由Euro Ruiz基金、法国BPI银行、360资本等投资

    投资圈(ID:pedaily)3月7日消息,法国科技物流平台Cubyn璞语近期完成1万欧元D轮融资。 投资者为Euro Ruiz Fund、法国BPI银行、Capital、DN Capital和Partech。 本轮融资将用于市场和平台渠道拓展以及技术方案研发。 Cubyn成立于2015年,在法国巴黎经营自营仓储配送中心,为

    06-18

  • 专注MIM智能制造,富驰完成近2亿元融资,源星资本领投

    专注MIM智能制造,富驰完成近2亿元融资,源星资本领投

    据投资界6月1日消息,智能制造公司富驰宣布完成近2亿元融资。 本轮投资由源星资本领投,元和资本跟投。   Fuchi是一家金属注射成型(MIM)技术解决方案提供商。 MIM技术在金属零件的小型化、精密化、复杂化的生产和应用中具有明显的优势。 富驰已经应用于消费电子、医疗、

    06-18

  • 互联药业完成近2.5亿元A轮融资,红杉中国领投

    互联药业完成近2.5亿元A轮融资,红杉中国领投

    投资界(ID:pedaily)5月26日消息,互联药业今日宣布完成近2.5亿元A轮融资,由红杉中国领投领投,盈联健康基金、嘉辰资本、辰德资本、昆仑资本跟投。 本轮融资资金将用于推进放射性药物肿瘤产品管线和放射性医用同位素生产平台的开发。 互联药业联合创始人、董事长兼首席运营

    06-17

  • 户外行业:让假需求成为消费风向标

    户外行业:让假需求成为消费风向标

    作为爷爷辈的老家货,军大衣万万没想到有一天会被年轻人挖出来“整顿”冬装市场。 “不是羽绒服买不起,而是军大衣性价比更高”的笑话不仅逗乐了年轻人,也让电商平台的老板笑出了声。 但军大衣的流行,与其说是时尚,不如说是被不断上涨的羽绒服价格逼出来的。 先于军大衣流

    06-18

  • 华平投资与“文盛资产”成立“文盛特别机会资产管理公司”

    华平投资与“文盛资产”成立“文盛特别机会资产管理公司”

    今日,私募股权投资机构华平投资与上海文盛资产管理有限公司宣布联合成立“文盛特别机会资产管理”公司”。 平台计划合计投资6亿美元,预计五年内资产管理规模达到50亿美元。 合资公司将通过多元化投资方式收购个别房产的特殊机会资产,释放资产价值,助力中国经济发展。

    06-17