江苏“万亿”群聊,等苏C
06-17
Sora视频模型的发布几乎复制了一年半前GPT-3首次亮相时AI圈的盛况:突然出现,引发热议广泛的震惊。
北京时间2月16日,在没有任何消息泄露或事先通知的情况下,OpenAI在社交平台X(原Twitter)上发帖,首次公布了名为Sora的文生视频AI模型。
“介绍Sora,我们的文本转视频模型(Introducing Sora, our text-to-video model)”这句话简短而切中要点。
这更像是一个通知,而不是一个公告:是的,我们又拿出了一个大的来了。
之后介绍了Sora模型的能力:Sora可以制作长达60秒的视频,包含高度详细的场景、复杂的镜头动作以及充满活力和情感的多个角色。
还附有演示案例的相应提示:美丽的雪域东京城非常繁华。
镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。
美丽的樱花花瓣随着雪花在风中飞舞。
对于Sora,业界的评价并不统一:有人认可,也有人认可。
创始人周鸿祎发文称,Sora意味着通用人工智能的实现可能从10年缩短到1年。
这个模型不仅展示了视频制作的能力,也表明大模型理解和模拟现实世界后,会带来新的成果和突破。
NVIDIA 人工智能研究院首席研究科学家 Jim Fan 将Sora称为视频生成领域的 GPT-3 时刻:Sora是一个“数据驱动的物理引擎”、一个可学习的模拟器或“世界模型”。
上网频繁、一向直言不讳的马斯克,直接输入了“gg human”(人类输了)。
我们先不去深究后续的影响是正面的还是负面的。
能够同时给人工智能、影视、社交媒体等多个行业带来颠覆性、划时代轰动的,就是OpenAI。
始终是 OpenAI。
就像一群工程师还在讨论如何进一步完善登月计划一样,OpenAI 团队发回了一组来自火星的自拍照——它们总是有相同的版本,为什么? NVIDIA AI 研究院科学家 Jim Fan 对Sora的评价从技术角度来说非常有启发性:他将Sora定义为物理引擎和世界模型。
传统意义上,视频图像是二维的,而人们生活的物理世界是三维的。
这成为AI视频模型设计之初的概念差异:在生成视频的过程中,AI的作用应该是对多个视频片段进行分割和组合,还是应该作为一个主体来构建和构建记录一个虚拟的AI空间。
OpenAI的选择是后者。
在其官网发布的Sora技术报告中,有一句话值得注意:“我们的研究结果表明,开发能够模拟物理世界动态的通用模拟器是一条有前途的道路,具有前所未有的准确性和真实性。
”粗略的理解是,Sora并不是在剪辑视频,而是在生成视频之前先对一个空间进行建模,然后将其变成一个镜头,记录下三维的虚拟空间。
三维建模可以显示比平面图更多的信息。
在设计思路上,OpenAI提前增加了一个维度,或者说一个版本。
当然,更多的信息意味着更大的数据流。
在有限算力内取得更好的结果,在保证效果的同时尽可能节省算力,本质上是同一个问题:AI计算效率。
但对于OpenAI来说,这些问题都是有经验可循的——从ChatGPT到GPT-4等项目的技术积累,已经成为OpenAI构建Sora模型的良好基础。
受到大语言模型成功案例的启发,OpenAI 在探索视频模型时思考的是“如何获得类似的收益”:在大模型的运行过程中,token(词法单元)作为自然语言处理任务中的最小文本单元,携带输入信息。
该函数帮助模型处理和理解文本。
ChatGPT将代码、数学和各种自然语言拆分为令牌,然后让模型处理和理解令牌,并且可以通过学习令牌之间的关系来获取更多语义信息。
同样,在视频生成模型中,OpenAI 也创建了与 token 对应的数据单元“Patch”(图像单元),并将图形语言转换为对应格式的 patch 进行计算,在保证可扩展性的同时大大提高了单元模型的。
计算能力内的计算效率。
在模型前端,OpenAI也使用了自己在GPT系列模型中的成果:与文本对话类似,训练文生视频的过程不仅需要视频素材案例,还需要大量相应的文本描述。
OpenAI采用最初在DALL·E 3中提出的“重新标题”模式,使用高度描述性的标题生成器为训练集中的视频材料生成文本描述。
生成的结果还表明,在制作过程中向素材添加额外的字幕可以提高整体视频质量,包括准确性。
此外,效仿DALL·E 3的做法,OpenAI还利用GPT扩展了用户输入的简短提示文字,让AI更容易理解,并将用户输入的文字扩展为更长、更详细的描述,然后交给视频生成模型进行处理。

对于OpenAI这样的技术驱动型公司来说,经验和技术的积累是一种加速。
可追溯的成功经验和团队自身对AI理念的理解,让OpenAI始终站在自己的肩膀上,或者推动自己加速前进。
比技术创新更可怕,或者说更值得友商关注的是,这种沉迷往往会变成惯性,一步快一步更快。
通过加速追赶和基准测试,我们希望能够与 OpenAI 并驾齐驱。
随着配套设施越来越成熟,难度可能只会增加而不是减少。
真正的增量还是在于顶层设计的创新。
因此,与其说AI占据了人们的创新空间,不如说AI提高了有效创新的门槛:设计AI,或者说能够超越AI创造力的设计,才是大模型时代的有效增量。
【本文由投资界合伙人爱蓝传媒授权发布。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。
趋势和行业变化,以及对未来技术趋势的洞察。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-18
06-18
06-17
06-17
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态