首页 > 科技未来 > 内容

为什么OpenAI总是领先一个版本

发布于:2024-06-18 编辑:匿名 来源:网络

Sora视频模型的发布几乎复制了一年半前GPT-3首次亮相时AI圈的盛况:突然出现,引发热议广泛的震惊。

北京时间2月16日,在没有任何消息泄露或事先通知的情况下,OpenAI在社交平台X(原Twitter)上发帖,首次公布了名为Sora的文生视频AI模型。

“介绍Sora,我们的文本转视频模型(Introducing Sora, our text-to-video model)”这句话简短而切中要点。

这更像是一个通知,而不是一个公告:是的,我们又拿出了一个大的来了。

之后介绍了Sora模型的能力:Sora可以制作长达60秒的视频,包含高度详细的场景、复杂的镜头动作以及充满活力和情感的多个角色。

还附有演示案例的相应提示:美丽的雪域东京城非常繁华。

镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。

美丽的樱花花瓣随着雪花在风中飞舞。

对于Sora,业界的评价并不统一:有人认可,也有人认可。

创始人周鸿祎发文称,Sora意味着通用人工智能的实现可能从10年缩短到1年。

这个模型不仅展示了视频制作的能力,也表明大模型理解和模拟现实世界后,会带来新的成果和突破。

NVIDIA 人工智能研究院首席研究科学家 Jim Fan 将Sora称为视频生成领域的 GPT-3 时刻:Sora是一个“数据驱动的物理引擎”、一个可学习的模拟器或“世界模型”。

上网频繁、一向直言不讳的马斯克,直接输入了“gg human”(人类输了)。

我们先不去深究后续的影响是正面的还是负面的。

能够同时给人工智能、影视、社交媒体等多个行业带来颠覆性、划时代轰动的,就是OpenAI。

始终是 OpenAI。

就像一群工程师还在讨论如何进一步完善登月计划一样,OpenAI 团队发回了一组来自火星的自拍照——它们总是有相同的版本,为什么? NVIDIA AI 研究院科学家 Jim Fan 对Sora的评价从技术角度来说非常有启发性:他将Sora定义为物理引擎和世界模型。

传统意义上,视频图像是二维的,而人们生活的物理世界是三维的。

这成为AI视频模型设计之初的概念差异:在生成视频的过程中,AI的作用应该是对多个视频片段进行分割和组合,还是应该作为一个主体来构建和构建记录一个虚拟的AI空间。

OpenAI的选择是后者。

在其官网发布的Sora技术报告中,有一句话值得注意:“我们的研究结果表明,开发能够模拟物理世界动态的通用模拟器是一条有前途的道路,具有前所未有的准确性和真实性。

”粗略的理解是,Sora并不是在剪辑视频,而是在生成视频之前先对一个空间进行建模,然后将其变成一个镜头,记录下三维的虚拟空间。

三维建模可以显示比平面图更多的信息。

在设计思路上,OpenAI提前增加了一个维度,或者说一个版本。

当然,更多的信息意味着更大的数据流。

在有限算力内取得更好的结果,在保证效果的同时尽可能节省算力,本质上是同一个问题:AI计算效率。

但对于OpenAI来说,这些问题都是有经验可循的——从ChatGPT到GPT-4等项目的技术积累,已经成为OpenAI构建Sora模型的良好基础。

受到大语言模型成功案例的启发,OpenAI 在探索视频模型时思考的是“如何获得类似的收益”:在大模型的运行过程中,token(词法单元)作为自然语言处理任务中的最小文本单元,携带输入信息。

该函数帮助模型处理和理解文本。

ChatGPT将代码、数学和各种自然语言拆分为令牌,然后让模型处理和理解令牌,并且可以通过学习令牌之间的关系来获取更多语义信息。

同样,在视频生成模型中,OpenAI 也创建了与 token 对应的数据单元“Patch”(图像单元),并将图形语言转换为对应格式的 patch 进行计算,在保证可扩展性的同时大大提高了单元模型的。

计算能力内的计算效率。

在模型前端,OpenAI也使用了自己在GPT系列模型中的成果:与文本对话类似,训练文生视频的过程不仅需要视频素材案例,还需要大量相应的文本描述。

OpenAI采用最初在DALL·E 3中提出的“重新标题”模式,使用高度描述性的标题生成器为训练集中的视频材料生成文本描述。

生成的结果还表明,在制作过程中向素材添加额外的字幕可以提高整体视频质量,包括准确性。

此外,效仿DALL·E 3的做法,OpenAI还利用GPT扩展了用户输入的简短提示文字,让AI更容易理解,并将用户输入的文字扩展为更长、更详细的描述,然后交给视频生成模型进行处理。

为什么OpenAI总是领先一个版本

对于OpenAI这样的技术驱动型公司来说,经验和技术的积累是一种加速。

可追溯的成功经验和团队自身对AI理念的理解,让OpenAI始终站在自己的肩膀上,或者推动自己加速前进。

比技术创新更可怕,或者说更值得友商关注的是,这种沉迷往往会变成惯性,一步快一步更快。

通过加速追赶和基准测试,我们希望能够与 OpenAI 并驾齐驱。

随着配套设施越来越成熟,难度可能只会增加而不是减少。

真正的增量还是在于顶层设计的创新。

因此,与其说AI占据了人们的创新空间,不如说AI提高了有效创新的门槛:设计AI,或者说能够超越AI创造力的设计,才是大模型时代的有效增量。

【本文由投资界合伙人爱蓝传媒授权发布。

本平台仅提供信息存储服务。

】如有任何疑问,请联系投资界()。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

趋势和行业变化,以及对未来技术趋势的洞察。

为什么OpenAI总是领先一个版本

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 江苏“万亿”群聊,等苏C

    江苏“万亿”群聊,等苏C

    何时能晋级? 过去一年,江苏经济运行“持平、中高、平稳”,交出了一份可喜的答卷。 统计显示,江苏全年国内生产总值达到12.82万亿元,同比增长5.8%,增速高于全国0.6个百分点。 与此同时,江苏还荣获多项“*”:进出口总额5.25万亿元,实际利用外资规模保持全国第一;制造业

    06-17

  • 亚运会结束了,谁还记得吴艳妮?

    亚运会结束了,谁还记得吴艳妮?

    网红运动员,或者说体育明星,是网络上无数明星和网红生态中最特殊的存在。 它们的流行可以分为两个阶段,以短视频应用程序成为国民应用程序为分界点。 在第一阶段,性能是最重要的指标之一。 在前互联网时代(这只是一个粗略的称呼),姚明、刘翔、李宁等运动员之所以能够受

    06-18

  • 兔小二酒店管家完成数千万Pre-A轮融资,君尚资本投资

    兔小二酒店管家完成数千万Pre-A轮融资,君尚资本投资

    投资界8月10日消息,兔小二酒店管家今日宣布完成数千万Pre-A轮融资融资、投资方是君尚资本,氧资本是财务顾问。   据悉,本轮募集资金将主要用于改善客户体验和市场推广,深化布草租赁和洗衣行业,扩大市场份额,为酒店经营者提供更优质的布草租赁和洗衣服务和更高效的运营

    06-18

  • 华普科易获1亿元天使轮融资,由博源资本

    华普科易获1亿元天使轮融资,由博源资本

    投资圈(ID:pedaily)领投 据8月29日消息,华普科易(北京)科技有限公司(以下简称“华普科易”)科一”)宣布完成1亿元天使轮融资,由博源资本领投,辰德资本、国投创投跟投。 本轮融资筹集的资金将主要用于公司进一步增强为客户提供完整色谱解决方案的能力并拓展销售渠道

    06-18

  • 英特尔2022年第四季度营收140亿美元,同比下降32%

    英特尔2022年第四季度营收140亿美元,同比下降32%

    证券时报 英特尔1月26日发布第四季度及全年财报,显示2022年第四季度营收140亿美元,同比下降32%。 第四季度为1亿美元,而去年同期为1亿美元。 美元,同比下降32%;全年营收1亿美元,与去年同期的1亿美元相比,同比下降20%。 由于PC芯片销量降幅大于预期以及利润丰厚的服务器

    06-06

  • TalkingData获新一轮融资约1亿美元,华润资本战略领投

    TalkingData获新一轮融资约1亿美元,华润资本战略领投

    消息,TalkingData宣布获得总额约1亿美元的新一轮融资。 本轮融资由华润资本旗下华润数据基金(大数据技术应用基金)领投,作为战略投资者。 本轮募集资金将用于迭代升级TalkingData数据智能平台产品,完善行业客户销售和服务体系建设。 ,更好地满足企业客户在数字化转型过程

    06-17

  • “Bruco集团”宣布完成6亿元B轮融资

    “Bruco集团”宣布完成6亿元B轮融资

    “Bruco集团”正式宣布完成6亿元B轮融资。 本轮融资由云峰基金和君联资本联合领投,源码资本、高榕资本等,部分原始股东也参与投资。 资金将主要用于升级完善“积木+”产业链“研产销”环节,巩固品牌护城河。 Bruco成立于2008年,2016年正式确定以“积木”为连接器的产业生态

    06-18

  • 麦穗人工智能宣布完成数千万元Pre-A轮融资

    麦穗人工智能宣布完成数千万元Pre-A轮融资

    麦穗人工智能近日宣布完成数千万元Pre-A轮融资。 本轮投资由凯泰资本与上市公司致远互联网共同投资。 麦穗人工智能成立于2017年,致力于成为招聘智能化转型的引领者。 它依靠行业独有的模型,帮助企业处理和分析复杂的多维度非结构化数据,以实现更好的人力规划和分析、人才库

    06-17

  • 湖北设立百亿科技创新发展基金

    湖北设立百亿科技创新发展基金

    投资界(ID:pedaily)5月21日报道,湖北省科技创新发展基金,重点支持科技人才、平台、园区协调发展、行业和地区,20日举行签约仪式。 该基金规模1亿元,是湖北省科技金融服务“滴灌行动”的重要组成部分。 湖北省科技创新发展基金由湖北省创业投资引导基金管理中心、省高新

    06-17

  • 广州拟建200亿汽车产业发展基金

    广州拟建200亿汽车产业发展基金

    为落实市委、市政府相关工作部署,推动全市汽车及核心零部件产业高质量发展,我局已制定《广州市支持汽车及核心零部件产业稳链补链强链的若干措施》(以下简称《若干措施》)。 据《广州市行政规范性文件管理规定》消息,现向社会公开征求意见。 同时,根据《国务院关于在市

    06-18

  • 1-5月,我国规模以上互联网及相关服务企业业务收入同比增长24.4%

    1-5月,我国规模以上互联网及相关服务企业业务收入同比增长24.4%

    今天,工信部发布数据显示,1-5月,我国互联网及相关服务企业营业收入同比增长24.4%。 规模以上相关服务企业完成业务收入1亿元,同比增长24.4%,增速同比提高9.5个百分点,1-4月份回落3.4个百分点。

    06-17

  • 法律服务公司“Fa天使”获京信供销基金A轮融资

    法律服务公司“Fa天使”获京信供销基金A轮融资

    据投资界5月17日消息,Fa天使近日获得京信供销基金A轮融资。 据悉,本轮融资将主要用于完善中国合同数据库知识图谱、优化合同审核工具以及持续推进合同发布计划。 Fa天使希望成为合约库的集成者,开源法律文档,构建合约知识图谱,为法律界提供合约库。 目前,法聘推出了法律

    06-17