一家号称“真相帝”的公司,一个DEMO就能估值2亿
06-17
春节后的一周,国内人工智能圈和Sora技术相关的各大厂商对OpenAI宣布Sora的反应一致,加上媒体的热情。
形成鲜明的对比。
OpenAI越来越闭源,几乎没有具体信息,国内还处于去盲盒阶段。
不得不承认Sora是算法组合、数据选择、训练策略、算力优化等能力的结合体。
虽然这些技术可能并非OpenAI原创,但OpenAI对其的深刻洞察以及精湛的系统构思和设计能力,只能做出“颠覆性”的突破,而不是简单的蛮力。
面对如此大规模的系统工程,国内人工智能圈仍需在各方面进行弥补。
01 主要厂商反应 本周,字节跳动、百度、阿里巴巴、腾讯、华为、浪潮等公司均未公开发表评论。
一些相关大厂的研发团队正在“拆盲盒”,信息严格保密。
“Sora将会影响公司今年的产品开发计划。
”值得注意的是,各大厂商对Sora的积极关注和洞察程度普遍不如去年ChatGPT推出后那么迫切和深入。
各大工厂的内网上,核心研发团队以外的人都在发表零星的讨论,但“讨论还远谈不上火爆”。
国内各大人工智能大厂的内网上甚至出现“零帖子”。
这种情况与媒体热议甚至中美人工智能差距拉大的感叹完全不同。
不过,一些更快的动作也能看出行业的一些紧迫感。
2月17日,Sora发布的第二天,阿里巴巴社区发起了一篇Sora技术路径分析,文章受到热烈欢迎; 2月18日,百度独学堂推出Sora解读系列课程;春节刚过,浪潮相关业务就给出了Sora的分析报告。
多家主要厂商的相关业务线都安排了调研和报告任务,部分厂商本周将进行Sora分析调查。
由于OpenAI披露的信息很少,与ChatGPT推出后对技术的一些具体分析不同,Sora的分析更多的是猜测,更少的具体依据。
从各大工厂员工的讨论来看,大家都集中在几个方向:Sora的技术机制,包括Sora能否成为现实世界的模拟器;计算能力;商业方向和时间。
目前,其技术机制仍存在诸多“谜团”;对算力消耗的猜测也令人困惑;就Sora的商用时间而言,预测从一个月到半年不等,普遍认为速度会很快。
一家大公司的员工发表了一份分析报告。
从OpenAI的动作来看,包括发布了Sora、ChatGPT、DALLE,以及一直强调的Agent,OpenAI今年下半年可能发布的GPT5将是真正的Agent的第一个版本。
有了这个Agent,比如以后你想做一个App,GPT5可以自动生成代码、图片、视频,打包部署,包括申请和配置域名,最终生成一个可以访问的App。
这些猜测也表明,未来每位员工的工作方式正在被重塑。
虽然大厂论坛上很少有对技术差距的抱怨,但员工们在交流中却有抱怨、无奈。
不过,也有人认为Sora对国内AI超级有利。
原因是,在全球短视频市场中,字节、腾讯、快手占据前三名,而且大家都知道Sora的基础知识。
凭借GPU计算能力,预计“最快一年”就会在中国推出类似产品。
02 OpenAI 不依赖暴力。
业界注意到Sora的惊人成绩得益于新的算法组合和训练策略。
不过,与ChatGPT类似,纯粹从具体算法来看,它们并不是OpenAI原创的。
“Sora在算法组织和数据训练策略上投入了大量精力,充分挖掘算法和数据的潜力,学习更深层次的知识。
”云之声董事长梁家恩表示,通过架构设计和训练策略,而不是单纯的算法改进,OpenAI不断刷新业界的认知。
这体现了OpenAI对算法和数据潜力的深刻洞察,以及成熟的系统构想和设计能力,而不是简单地用“蛮力”来实现这种“颠覆性”突破。
Sora正式公布后,纽约大学的谢赛宁对其进行了技术推测。
由于谢赛宁与Sora团队关系密切,他的猜测影响广泛,尤其是他猜测“Sora参数可能是30亿”。
有人认为30亿这个参数是有道理的。
一位资深人士分析称,Sora生成的视频效果很惊人,但细节也很多。
OpenAI首先要秀肌肉,OpenAI将进一步拓展模型;另一位资深人士从算力的角度直观分析,视频是三维的,单元处理需要大量的算力。
如果Sora参数太大,计算能力会不够。
不过,也有业内人士认为“超过30亿”。
“我认为 30 亿这个参数具有误导性。
一位资深人工智能专家告诉《数字智能前沿》,“Sora 依靠 OpenAI 最强大的语言模型来生成字幕(字幕、说明文字)。
“在Sora提供的技术报告中,简单描述了他们如何为视频设计自动化技术,生成文本描述,或者将简短的用户提示转换为较长的详细描述,以提高视频的整体质量。
而从OpenAI的探索风格来看对于人工智能的边界,也有人认为30亿太小了,“这不符合其一贯做法,他们都讲‘努力才能创造奇迹’。
”中科深圳CTO宋健告诉记者。
数字智能前沿认为,其实这条路已经在理论上被指出了,而且很多企业也已经尝试过。
目前,只有空能够真正实现。
一位浪潮人士表示,Sora的突破再次证明人工智能是一个系统工程,单纯静态地推测参数可能没有意义。
过去大家制作视频的难点就是很难保持视频的连贯性或者一致性,因为中间有很多中间的东西。
反直觉的东西,比如错误的光影、空间变形,所以业界对长视频并不确定。
“OpenAI最终是否会采用更大规模的参数还不能根据目前公开的信息来判断,但我猜他们肯定会根据他们的风格进行尝试。
”梁加恩表示,之前OpenAI从GPT2转向GPT3时,深信只要算法结构合理,通过超大规模无监督学习,可以通过小样本甚至零样本学习击败监督学习这就是OpenAI对规模效应的影响。
”这次Sora通过算法组合和数据设计学到了更多符合物理规律的‘知识’,这符合OpenAI多年来的一贯风格。
“然而,Sora 还不能被称为一个合格的物理世界模拟器,它生成的视频存在大量错误。
OpenAI 本身也在技术报告中提出,这是一个有前途的方向。
人们对 Sora 的需求不同。
” “如果现在做数字孪生,最好直接用物理引擎作为底层来构建,就像英伟达的Omniverse,虽然不是完全物理的,但已经非常准确了。
”宋健说。
但对于视觉艺术来说,它是关于视觉感知的,只要它能够给大家带来足够好的视觉冲击力就可以了。
《03 对计算能力的猜想》现在大家对计算能力的猜测很混乱。
一位NVIDIA人士告诉Digital Intelligence Frontier。
由于OpenAI此次发布的信息很少,业界很难评价。
“视觉模型或多模态模型的计算能力与大型语言模型不同。
”一位人工智能算力资深人士告诉数字智能前沿,尽管Sora可能只有数十亿个参数,但其算力却相当于数千亿。
估计几千亿或者几千亿的大型语言模型也差不多。
为了进一步分析,他可以参考Vincent图模型Stable Diffusion。
参数只有10亿左右,但训练算力却动用了数十台服务器,耗时近一个月。
他估计Sora的训练计算能力可能比前者至少大一个数量级,即数百台服务器,而OpenAI肯定会进一步规模化,让Sora模型变得更大。
另一方面,该模型的推理计算能力远大于大语言。

数据显示,Stable Diffusion 的推理算力消耗与 Llama 70b(亿级)参数模型相近。
也就是说,就推理计算能力而言,10亿级的Vincent图模型与1000亿规模的大型语言模型相差无几。
像Sora这样的视频生成模型的推理计算能力肯定比图像生成模型大得多。
“文本是一维的,视频是三维的,视频的单位计算量要大得多。
”一位人工智能专家告诉数字智能前沿,他认为需要几千卡路里才有机会。
由于Sora带动的Vincent Video的发展,今年国内整体算力仍然会非常紧张。
据算力基础设施公司人士介绍,在人工智能算力方面,目前北美几大巨头的算力已经是国内算力总量的十倍以上,甚至更多。
但在某些领域,国内算力已经闲置。
这包括几种情况。
例如,一些去年上半年开始训练大型模型的公司放弃了开发大型模型或转向开源模型;去年大型语言模型的实现遇到了挑战,没有大量的推理应用实现。
这些都会导致一些企业有数十个或数百个闲置单位。
宋健还发现了本地算力闲置的问题。
他观察到,特别是从今年11月份左右开始,租赁算力变得更加容易,价格可能是原价的2/3甚至1/2。
【本文由投资界合作伙伴微信公众号授权:数智前线。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。
趋势和行业变化,以及对未来技术趋势的洞察。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-21
06-17
06-18
06-17
06-18
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态