线性资本成功募集5亿美元,王淮写下深情信
06-17
Sora证明了特斯拉的想法是对的,特斯拉证明了Sora的价值不仅仅是生成视频。
Sora推出后,马斯克可能是心情最复杂的一个。
不仅因为他早年与OpenAI的纠葛,还因为Sora意识到的其实正是特斯拉这几年一直在探索的方向。
2月18日,马斯克在科技@Dr.KnowItAll的主播题为《OpenAI的重磅炸弹证实了特斯拉理论》的视频下留言称,“特斯拉已经能够利用精确的物理原理制作真实世界的视频大约一年了”随后他在X上转发了一段2018年的视频,视频中特斯拉自动驾驶总监Ashok·埃勒斯瓦米(Ashok Elluswamy)向外界介绍了特斯拉如何利用AI模拟现实世界的驾驶,视频中AI生成了7个不同角度的驾驶视频。
同时,只需输入“直行”或“变道”等指令,即可使这七个视频同时变化。
当然,这并不意味着特斯拉早年就掌握了Sora的技术。
毕竟在一年前,特斯拉的生成技术只是用来模拟车辆驾驶,Sora能够处理的环境、场景、提示、物理规律等信息更加复杂。
但特斯拉AI和Sora的训练思路是一样的:不是训练AI如何生成视频,而是训练AI理解并生成一个真实的场景或世界。
视频只是一段时间和空间,从某个角度观察这个场景。
这是两家现有业务完全不同的公司。
他们使用不同的方法来感知现实世界。
他们都希望实现的是AGI(人工智能),或者更具体地说,是体现智能。
和智能代理。
理解这个观点的核心是理解OpenAI赋予Sora的使命。
它不仅仅是取代视频生成的创造者,而是将视频生成作为“模拟器”来帮助AI理解现实世界。
如果说特斯拉的百万载具还需要用“肉身”来体验世界,那么Sora则完全依靠数据输入来构建他对世界的认知。
在OpenAI官网上,这篇关于Sora的研究论文被称为《把视频生成模型作为世界模拟器》。
请关注关键字“世界模拟器”,它比生成视频更关键。
事实上,早在特斯拉发布FSD V12时,这家以汽车为主要消费产品的人工智能公司就已经展示了类似的能力。
怎么理解呢?首先,在FSD V12上,工程师删除了超过30万行定义驾驶规则的代码。
系统将从“喂”来的驾驶视频中学习如何处理真实的驾驶场景,而不是像过去那样遵循书面规则。
在特定场景下执行特定命令的规则。
当然,与Sora那样的“生成模型”不同,FSD的目标是实现自动驾驶,因此它并不需要实际生成特定的视频。
您可以想象一个人(或代理人)执行“防御性驾驶”。
它可以根据过去的经验,对周围环境中交通参与者的下一步运动趋势做出判断。
这个判断只需要存在于你的脑海中,不需要实际画在纸上。
因此,特斯拉的FSD不需要生成未来的真实视频并将其呈现在车辆的某个屏幕上。
因此,现在出现了OpenAI和特斯拉这两家完全不同的公司,用完全不同的方法和路径来实现“通过视频生成让AI理解物理世界”的同一个目标。
我们简单看一下Sora的操作逻辑:OpenAI表示,Sora结合了过去几年最重要的两个模型Transformer和Diffusion。
ChatGPT、Gemini、LLaMA等语言模型都是基于Transformer模型,对单词进行标签并生成下一个单词;扩散模型是“文森特图”的代表。
如果从“理解世界”的角度来看待Sora,那么某一帧图像的质量和关系绝不是评判模型好坏的标准。
就连官网发布的60秒单镜头视频也不是核心部分。
重要的是,生成的视频是可以编辑的——在不同的机位下,无论是广角、中景、近景、特写,视频中的人物与背景的关系都保持着高度的还原度。
“一致性。
”这就是Sora离现实越来越近的地方。
这可以结合特斯拉的“纯视觉”FSD方法来理解。
简单来说,99%的车企或者智能驾驶团队都会在车辆上搭载激光雷达,通过激光束的发射和接收来辅助计算周围物体与车辆的距离关系。
但马斯克不仅删除了30万行代码,还去掉了雷达,仅依靠高清摄像头采集和神经网络学习来确定距离关系。
这对于特斯拉和OpenAI来说都是一个巨大的挑战。
毕竟输入图像是2D的,但输出结果(无论是驾驶指令还是视频)需要基于对3D世界的深刻理解。
规模和质量是培训模式的核心。
特斯拉的数据来自于真实道路上配备传感器的车辆;而OpenAI的大量数据,从目前公开的信息来看,都来自于互联网。
从质量上来说,在《马斯克传》中,作者Isaacson写道,特斯拉通过与Uber合作,获得了“五星级司机”培训FSD的材料;而从规模来看,奥特曼最近希望筹集数万亿资金,那就是重视算力和规模的具体体现。
最后回到最初的问题,为什么我们认为Sora和FSD v12很相似?Sora和OpenAI的未来想象是什么?它们与 AGI 有什么关系? 马斯克表示,当人工智能能够真正解决问题(物理、数学、化学等)时,AGI 就到来了。

但理解还有另一个维度,那就是具身智能。
毕竟,现实世界不仅仅是数学公式和书面规则。
具有一定智商的小猫小狗也可以依靠运动与物理世界真正互动。
这对于过去只能输入二维信息的AI来说是很难实现的。
这也是马斯克在见到Sora后评价X为“GG人类”的原因。
在他看来,Sora今天所做的一切打破了过去的次元壁,AI可以理解现实世界并持续学习。
进一步影响现实世界的能力。
而就像特斯拉用这种生成能力来训练车辆一样,Sora的价值不仅仅在于生成一段真假难辨的视频,并将其作为影视创作者的生产力工具(虽然这是一个很困难且迫切需要的场景)。
正如周鸿祎所说,“Sora只是尽力而为,它展现的不仅仅是一个视频制作能力,而是一个大模型,在理解和模拟现实世界后会带来新的结果和突破。
” 【本文由投资界合作伙伴微信公众号授权:极客公园。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。
趋势和行业变化,以及对未来技术趋势的洞察。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-21
06-17
06-17
06-17
06-21
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态