首页 > 科技未来 > 内容

Sora受欢迎,大佬技术分析来了

发布于:2024-06-18 编辑:匿名 来源:网络

我们来谈谈Sora有多受欢迎。

其中一个生成的视频在网上疯传。

作者小哥新上传的效果很快就吸引了围观。

失败案例让人一看就上瘾。

近万人点赞。

学术界更是兴奋不已,各界大佬纷纷打开麦克风。

纽约大学助理教授谢赛宁(《ResNeXt》作者)直言Sora将改写整个视频生成领域。

NVIDIA高级研究科学家Jim Fan喊道,这就是视频生成的GPT-3时刻! 尤其是技术报告发布后,讨论变得更加有趣。

因为很多细节都不是很清楚,大佬只能猜测。

包括“Sora是数据驱动的物理引擎”、“Sora是建立在DiT模型之上,参数可能只有30亿”等等。

那么,Sora为何如此神奇呢?这对视频生成领域意味着什么?不,很快就会有一些可能的答案。

视频生成的 GPT-3 矩 一般来说,Sora是一种在不同时长、分辨率和长宽比的视频和图像上训练的扩散模型。

它还使用了 Transformer 架构,这是一种“扩散模型”。

关于技术细节,官方报告简单提到了以下6点:一是视觉数据的“创新转化”。

与大语言模型中的代币不同,Sora使用“补丁”来统一不同的视觉数据表达。

如图下图中,在具体操作中,模型首先将视频压缩到低维潜在空间,然后将它们的表示分解为时空补丁,从而将视频转换为补丁(啊,这个,看来我。

说完就没说什么了)第二是训练一个视频压缩网络,它可以降低视觉数据的维度,输入视频,输出一个时空压缩的潜在表示,相应的,OpenAI也训练了这个。

第三个是时空潜在补丁技术,给定压缩的输入视频,该模型提取一系列时空补丁,作为 Transformer 的令牌。

正是这种基于补丁的表示形式使Sora能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。

在推理时,模型通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

第四是发现扩展的Transformer也适合视频生成。

OpenAI在这项研究中发现,扩散Transformer在视频模型领域也能实现高效扩展。

下图显示,随着训练资源的增加,样本质量显着提高(固定种子和输入条件)。

五是关于视频多元化的一些启示。

与其他机型相比,Sora可以容纳各种尺寸的视频,包括不同的分辨率、时长、长宽比等,还对构图和布局进行了更多优化,如下图所示。

业内很多类似模型都会盲目地将输出视频裁剪成正方形,导致主题元素仅部分显示,但Sora却可以捕捉到完整的场景:报告指出,这一切都得益于 OpenAI 直接在原始维度上进行训练的视频数据。

最后,还有语言理解方面的努力。

在这里,OpenAI采用了DALL·E 3中引入的重新标注技术并将其应用到视频中。

除了使用高度描述性的视频描述进行训练外,OpenAI还使用GPT将用户的简短提示转换为更长的详细描述,然后发送给Sora。

这个系列让Sora的文字理解能力相当强大。

技术的介绍报告只提到了这么多,剩下的文字重点是Sora的一系列效果演示,包括文字转视频、视频转视频、图像生成等。

可见,“补丁”如何设计等核心问题,文中并没有详细解释。

有网友抱怨OpenAI还是那么“近”。

这也是大佬和网友们有各种猜测的原因。

谢赛宁的分析:1.Sora应该以DiT,扩散变压器为基础。

简而言之,DiT 是一个具有 Transformer 主干的扩散模型,它 = [VAE 编码器 + ViT + DDPM + VAE 解码器]。

谢赛宁推测Sora不应该对此有太多花哨的额外内容。

2、关于视频压缩网络,Sora可能会采用VAE架构。

不同之处在于它是用原始视频数据进行训练的。

由于 VAE 是一个 ConvNet,因此 DiT 从技术上来说是一个混合模型。

3.Sora可能有大约30亿个参数。

谢赛宁认为,这种猜测不无道理,因为Sora可能并不真的像人们想象的那样需要那么多GPU来进行训练。

如果真是这样的话,Sora后期的迭代将会非常快。

NVIDIA AI科学家Jim Fan认为:Sora应该是一个数据驱动的物理引擎。

Sora是现实或幻想世界的模拟。

它使用一些去噪和梯度下降来学习复杂的渲染、“直观”物理、远景推理和语义基础。

例如,在这个效果中,提示词是两艘海盗船在一杯咖啡中航行和战斗的逼真特写视频。

Jim Fan分析说,Sora首先需要提供两种3D资产:不同装饰的海盗船;文本转3D的隐含问题必须在势空间中解决;考虑到咖啡液的流动,两艘船必须避开彼此的航线。

力学,保持真实感,带来追光般的效果。

有人认为Sora只是在二维层面上控制像素。

Jim Fan显然不同意这种说法。

他觉得这就像说 GPT-4 不理解编码,只对字符串进行采样。

不过,他也表示,Sora目前还无法取代游戏引擎开发商,因为其对物理学的理解还远远不够,还存在非常严重的“幻觉”。

于是他提出Sora是视频生成的GPT-3时刻。

早在 2010 年,GPT-3 并不是一个伟大的模型,但它有力地证明了情境学习的重要性。

所以不要纠结于GPT-3的缺点,多思考GPT-4。

此外,一些大胆的网友甚至怀疑Sora使用了虚幻引擎5来创建一些训练数据。

他甚至一一分析了几个视频中的效果来支持他的猜想:然而反驳他的人也不少。

理由包括:“人走路的镜头明显很奇怪,不可能是引擎的效果。

” “YouTube上有无数的视频。

各种视频有数十亿小时,ue5没有多大用处”……我们暂时先放一边。

最后,有网友表示,虽然不期待OpenAI提供更多细节,但还是想知道Sora在视频编码、解码以及时间插值的附加模块方面是否有任何创新。

OpenAI的估值为1亿美元。

在Sora引起全球关注的同时,OpenAI的估值也再次上涨,成为全球第三高估值的科技初创公司。

随着最新要约收购的完成,OpenAI的估值正式达到1亿美元,仅次于字节跳动和SpaceX。

该交易由风险投资公司 Thrive Capital 牵头,允许外部投资者购买部分员工的股票。

OpenAI去年初完成了一项类似的交易,当时估值为1亿美元。

Sora发布后,GPT-4 Turbo 还大幅降低了速率限制并提高了 TPM(*每分钟代币数量),实现了较之前 2 倍的提升。

布罗克曼总统也亲自推动。

但与此同时,OpenAI申请注册“GPT”商标失败。

原因是“GPT”太通用了。

还有一点值得一提的是,眼尖的网友发现Stability AI昨天也发布了SVD 1.1。

但Sora似乎在发布博客后不久就迅速删除了该博客。

有人恶评,这不是翻版汪峰吗?它不应该被删除,而应该被带回来以获得人气。

这仍然是一个笑话。

有人感叹,Sora一来,立刻就明白了张楠为什么要主攻电影剪辑。

当然还有卖家大军,他们也趁着消息,抢占了商机。

【本文由投资社区合作伙伴微信公众号授权:量子比特。

本平台仅提供信息存储服务。

】如有任何疑问,请联系投资界()。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

Sora受欢迎,大佬技术分析来了

趋势和行业变化,以及对未来技术趋势的洞察。

Sora受欢迎,大佬技术分析来了

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 昌红科技拟参与投资设立医疗产业并购基金,总规模1亿元

    昌红科技拟参与投资设立医疗产业并购基金,总规模1亿元

    长虹科技拟参与投资设立总规模1亿元的医疗产业并购基金。 据投资界8月28日消息,长虹科技拟与深圳市合江股权投资管理有限公司、江西省发展升级引导基金合作。 和江稳稳股权投资基金(有限合伙)、江西省金融投资集团有限公司、珠海合江稳稳股权投资基金(有限合伙)、共青城鑫

    06-18

  • 绝味食品:一季度净利润2.36亿元,同比增长275%

    绝味食品:一季度净利润2.36亿元,同比增长275%

    绝味食品披露一季报,一季度营业收入15.06亿元,同比增长-同比增长41.22%;净利润2.36亿元,同比增长0.69%。

    06-17

  • 2.4亿!洪泰创新空间与海航集团成立海创大疆创业投资基金

    2.4亿!洪泰创新空间与海航集团成立海创大疆创业投资基金

    据投资界7月11日消息,洪泰创新空间昨日宣布与国创量子股权投资基金管理公司联合发起设立海创大疆创投基金海航集团旗下机构 基金总规模2.4亿元人民币,首期1亿元人民币。    据悉,海创大疆创业投资基金是洪泰创新空间继“青创大疆”基金之后的第二只基金。 该基金将重点投

    06-17

  • 克兰钻石网络计划2012年在中国上市

    克兰钻石网络计划2012年在中国上市

    2012年6月24日,克兰钻石网络CEO郭峰透露,公司计划在中国上市,希望年底前达到上市要求。   可兰钻石是中国领先的大型钻石珠宝电子商务及直销公司。 客蓝拥有行业领先的电商平台客蓝钻石网,并在北京、上海、深圳、杭州、南京等地设立体验中心。   清科数据库显示,2019

    06-18

  • 企业周刊- “金宇智能”与钉钉联手赋能中小企业云招聘

    企业周刊- “金宇智能”与钉钉联手赋能中小企业云招聘

    阿里云加速器云企融合案例期——“金宇智能” 金宇智能是一家拥有“AI+RPA”的公司公司以科技为基础的人力资源产品和解决方案,拥有先进的章节级语义识别算法和人才DNA胜任力模型,提高工作效率。 在阿里云加速器环节,金宇智能与钉钉联合开发的“钉钉智能招聘”模块应用已于

    06-18

  • 马化腾首度回应反垄断:积极配合监管

    马化腾首度回应反垄断:积极配合监管

    在腾讯控股年度业绩发布会上,关于反垄断最新情况,腾讯控股主席和马化腾回应了媒体询问。 马化腾表示,他将积极配合监管部门,总体上力求尽可能合规,以确保长期发展。 总裁和行政长官董事刘炽平表示,他们已就反垄断问题多次与相关部门会面,并定期与政府就这方面进行会晤。

    06-17

  • 继华为、小米之后,魅族也要“造车”了!

    继华为、小米之后,魅族也要“造车”了!

    又一家科技公司宣布投资智能汽车行业。 11月30日下午,在魅族秋季无界生态大会上,星记魅族集团董事长与CEO沈子瑜宣布:吉利品牌首款纯电动车型银河E8将接入Flyme Link手机域,实现车机与移动端。 无界互联。 这是继领克08、Polestar 4等车型搭载魅族自研Flyme Auto智能座舱系

    06-17

  • 来自“肯尼亚”的100PB数据大迁徙,是“云”的全面胜利

    来自“肯尼亚”的100PB数据大迁徙,是“云”的全面胜利

    今年2月,春节刚过,北京还被雾霾笼罩。 上地的一家酒店里,阿里云等人正在整装待发。 他们从技术“起点”回来后,推演了各种可能性,确保万无一失,然后决定正式启动“肯尼亚”迁移项目。 肯尼亚横跨赤道,是野生动物的王国。 最具传奇色彩的动物迁徙发生在每年七月至九月。

    06-17

  • 四维科技获2600万元A+轮融资,用AR-VR带购房进入移动互联网时代

    四维科技获2600万元A+轮融资,用AR-VR带购房进入移动互联网时代

    据投资界12月27日消息,四维科技创始人彭双全向媒体表示,公司已完成万元A+轮融资。 本轮融资由同创伟业领投,汇友资本跟投。 本次融资将主要用于市场拓展以及相关人才团队的培养和扩充。 2019年10月,四维科技获得1万元A轮融资,由浪马风创投领投,芯邦科技跟投。   深圳

    06-18

  • 首次发布 -博铭医疗完成数亿元C轮融资,由高瓴创投领投

    首次发布 -博铭医疗完成数亿元C轮融资,由高瓴创投领投

    投资界消息(微信ID:pedaily),近日,国内高值血管介入耗材企业博铭医疗宣布,已获得数亿元C轮融资,本轮融资由高瓴创投领投,凯辉资本、服贸基金跟投,老股东北极光创投跟投。 皓月资本担任本轮融资独家投资方。 本轮融资将用于进一步推动公司产品研发和市场推广,扩大再生

    06-17

  • MACOM与ST推动GaN-on-Si进入主流射频市场和应用

    MACOM与ST推动GaN-on-Si进入主流射频市场和应用

    将意法半导体的制造规模、供应安全和浪涌承受能力与MACOM的GaN-on-Si射频功率技术相结合,瞄准主流消费电子、汽车和电子领域无线基站项目意法半导体获准使用MACOM技术制造和提供硅基氮化镓射频功率产品硅基氮化镓突破性的成本结构和功率密度有望赋能4G/LTE和Massive MIMO 5G

    06-06

  • 勤霖科技完成数亿元B轮战略投资,京东数科、小米科技投资

    勤霖科技完成数亿元B轮战略投资,京东数科、小米科技投资

    据投资界4月15日消息,据36氪获悉,社区服务商沁霖科技完成数亿元B轮战略投资。 投资方为京东数科和小米科技。 本轮募集资金将用于业务拓展、人才引进和数据中后端建设。 此前,今年3月,沁霖科技获得尚石资本数千万元A+轮融资。 今年12月,完成卓时投资、远大投资的A轮融资

    06-17