首页 > 科技未来 > 内容

Sora不靠蛮力，各大厂商忙着拆盲盒

发布于：2024-06-18 编辑：匿名来源：网络

春节后的一周，国内人工智能圈和Sora技术相关的各大厂商对OpenAI宣布Sora的反应一致，加上媒体的热情。

形成鲜明的对比。

OpenAI越来越闭源，几乎没有具体信息，国内还处于去盲盒阶段。

不得不承认Sora是算法组合、数据选择、训练策略、算力优化等能力的结合体。

虽然这些技术可能并非OpenAI原创，但OpenAI对其的深刻洞察以及精湛的系统构思和设计能力，只能做出“颠覆性”的突破，而不是简单的蛮力。

面对如此大规模的系统工程，国内人工智能圈仍需在各方面进行弥补。

01 主要厂商反应本周，字节跳动、百度、阿里巴巴、腾讯、华为、浪潮等公司均未公开发表评论。

一些相关大厂的研发团队正在“拆盲盒”，信息严格保密。

“Sora将会影响公司今年的产品开发计划。

”值得注意的是，各大厂商对Sora的积极关注和洞察程度普遍不如去年ChatGPT推出后那么迫切和深入。

各大工厂的内网上，核心研发团队以外的人都在发表零星的讨论，但“讨论还远谈不上火爆”。

国内各大人工智能大厂的内网上甚至出现“零帖子”。

这种情况与媒体热议甚至中美人工智能差距拉大的感叹完全不同。

不过，一些更快的动作也能看出行业的一些紧迫感。

2月17日，Sora发布的第二天，阿里巴巴社区发起了一篇Sora技术路径分析，文章受到热烈欢迎； 2月18日，百度独学堂推出Sora解读系列课程；春节刚过，浪潮相关业务就给出了Sora的分析报告。

多家主要厂商的相关业务线都安排了调研和报告任务，部分厂商本周将进行Sora分析调查。

由于OpenAI披露的信息很少，与ChatGPT推出后对技术的一些具体分析不同，Sora的分析更多的是猜测，更少的具体依据。

从各大工厂员工的讨论来看，大家都集中在几个方向：Sora的技术机制，包括Sora能否成为现实世界的模拟器；计算能力;商业方向和时间。

目前，其技术机制仍存在诸多“谜团”；对算力消耗的猜测也令人困惑；就Sora的商用时间而言，预测从一个月到半年不等，普遍认为速度会很快。

一家大公司的员工发表了一份分析报告。

从OpenAI的动作来看，包括发布了Sora、ChatGPT、DALLE，以及一直强调的Agent，OpenAI今年下半年可能发布的GPT5将是真正的Agent的第一个版本。

有了这个Agent，比如以后你想做一个App，GPT5可以自动生成代码、图片、视频，打包部署，包括申请和配置域名，最终生成一个可以访问的App。

这些猜测也表明，未来每位员工的工作方式正在被重塑。

虽然大厂论坛上很少有对技术差距的抱怨，但员工们在交流中却有抱怨、无奈。

不过，也有人认为Sora对国内AI超级有利。

原因是，在全球短视频市场中，字节、腾讯、快手占据前三名，而且大家都知道Sora的基础知识。

凭借GPU计算能力，预计“最快一年”就会在中国推出类似产品。

02 OpenAI 不依赖暴力。

业界注意到Sora的惊人成绩得益于新的算法组合和训练策略。

不过，与ChatGPT类似，纯粹从具体算法来看，它们并不是OpenAI原创的。

“Sora在算法组织和数据训练策略上投入了大量精力，充分挖掘算法和数据的潜力，学习更深层次的知识。

”云之声董事长梁家恩表示，通过架构设计和训练策略，而不是单纯的算法改进，OpenAI不断刷新业界的认知。

这体现了OpenAI对算法和数据潜力的深刻洞察，以及成熟的系统构想和设计能力，而不是简单地用“蛮力”来实现这种“颠覆性”突破。

Sora正式公布后，纽约大学的谢赛宁对其进行了技术推测。

由于谢赛宁与Sora团队关系密切，他的猜测影响广泛，尤其是他猜测“Sora参数可能是30亿”。

有人认为30亿这个参数是有道理的。

一位资深人士分析称，Sora生成的视频效果很惊人，但细节也很多。

OpenAI首先要秀肌肉，OpenAI将进一步拓展模型；另一位资深人士从算力的角度直观分析，视频是三维的，单元处理需要大量的算力。

如果Sora参数太大，计算能力会不够。

不过，也有业内人士认为“超过30亿”。

“我认为 30 亿这个参数具有误导性。

一位资深人工智能专家告诉《数字智能前沿》，“Sora 依靠 OpenAI 最强大的语言模型来生成字幕（字幕、说明文字）。

“在Sora提供的技术报告中，简单描述了他们如何为视频设计自动化技术，生成文本描述，或者将简短的用户提示转换为较长的详细描述，以提高视频的整体质量。

而从OpenAI的探索风格来看对于人工智能的边界，也有人认为30亿太小了，“这不符合其一贯做法，他们都讲‘努力才能创造奇迹’。

”中科深圳CTO宋健告诉记者。

数字智能前沿认为，其实这条路已经在理论上被指出了，而且很多企业也已经尝试过。

目前，只有空能够真正实现。

一位浪潮人士表示，Sora的突破再次证明人工智能是一个系统工程，单纯静态地推测参数可能没有意义。

过去大家制作视频的难点就是很难保持视频的连贯性或者一致性，因为中间有很多中间的东西。

反直觉的东西，比如错误的光影、空间变形，所以业界对长视频并不确定。

“OpenAI最终是否会采用更大规模的参数还不能根据目前公开的信息来判断，但我猜他们肯定会根据他们的风格进行尝试。

”梁加恩表示，之前OpenAI从GPT2转向GPT3时，深信只要算法结构合理，通过超大规模无监督学习，可以通过小样本甚至零样本学习击败监督学习这就是OpenAI对规模效应的影响。

”这次Sora通过算法组合和数据设计学到了更多符合物理规律的‘知识’，这符合OpenAI多年来的一贯风格。

“然而，Sora 还不能被称为一个合格的物理世界模拟器，它生成的视频存在大量错误。

OpenAI 本身也在技术报告中提出，这是一个有前途的方向。

人们对 Sora 的需求不同。

” “如果现在做数字孪生，最好直接用物理引擎作为底层来构建，就像英伟达的Omniverse，虽然不是完全物理的，但已经非常准确了。

”宋健说。

但对于视觉艺术来说，它是关于视觉感知的，只要它能够给大家带来足够好的视觉冲击力就可以了。

《03 对计算能力的猜想》现在大家对计算能力的猜测很混乱。

一位NVIDIA人士告诉Digital Intelligence Frontier。

由于OpenAI此次发布的信息很少，业界很难评价。

“视觉模型或多模态模型的计算能力与大型语言模型不同。

”一位人工智能算力资深人士告诉数字智能前沿，尽管Sora可能只有数十亿个参数，但其算力却相当于数千亿。

估计几千亿或者几千亿的大型语言模型也差不多。

为了进一步分析，他可以参考Vincent图模型Stable Diffusion。

参数只有10亿左右，但训练算力却动用了数十台服务器，耗时近一个月。

他估计Sora的训练计算能力可能比前者至少大一个数量级，即数百台服务器，而OpenAI肯定会进一步规模化，让Sora模型变得更大。

另一方面，该模型的推理计算能力远大于大语言。

Sora不靠蛮力，各大厂商忙着拆盲盒

数据显示，Stable Diffusion 的推理算力消耗与 Llama 70b（亿级）参数模型相近。

也就是说，就推理计算能力而言，10亿级的Vincent图模型与1000亿规模的大型语言模型相差无几。

像Sora这样的视频生成模型的推理计算能力肯定比图像生成模型大得多。

“文本是一维的，视频是三维的，视频的单位计算量要大得多。

”一位人工智能专家告诉数字智能前沿，他认为需要几千卡路里才有机会。

由于Sora带动的Vincent Video的发展，今年国内整体算力仍然会非常紧张。

据算力基础设施公司人士介绍，在人工智能算力方面，目前北美几大巨头的算力已经是国内算力总量的十倍以上，甚至更多。

但在某些领域，国内算力已经闲置。

这包括几种情况。

例如，一些去年上半年开始训练大型模型的公司放弃了开发大型模型或转向开源模型；去年大型语言模型的实现遇到了挑战，没有大量的推理应用实现。

这些都会导致一些企业有数十个或数百个闲置单位。

宋健还发现了本地算力闲置的问题。

他观察到，特别是从今年11月份左右开始，租赁算力变得更加容易，价格可能是原价的2/3甚至1/2。

【本文由投资界合作伙伴微信公众号授权：数智前线。

本平台仅提供信息存储服务。

】如有任何疑问，请联系投资界（）。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态，提供一站式资讯服务，实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

趋势和行业变化，以及对未来技术趋势的洞察。

站长声明

标签：

上一篇：好未来自爆曝员工造假，股价盘后大跌

下一篇：七麦科技获数千万美元C轮融资，由高城资本

一家号称“真相帝”的公司，一个DEMO就能估值2亿

今天刀哥要说的公司，相当具有颠覆性。他们做的商业调查大数据产品经常刷爆朋友圈。很多企业在注册商标的时候，都想把能想到的名字都注册一遍。比如，网友发现老干妈一次性注册了老干娘、神老马、老阿姨等商标……抢注各种商标也是如此。毁三观，比如有一家历史上名字最长

06-17
iPad mini将为谁“复活”？

“即使只是换处理器，也不必要求全面屏。 ”作为多年iPad mini老用户的小志如实说道。 ▲ iPad mini 第五代（年份型号）其实他用的是“最新”的 iPad mini 第五代（以下简称“iPad mini 5”），但为什么叫“老款”呢？仅仅因为iPad mini 5是2017年发布的，现在已经快三年了。

06-21
MemVerge获1900万美元战略投资，推动数据中心“大内存计算”趋势

雷锋网5月12日报道，MemVerge今日宣布完成英特尔等战略投资者1万美元融资、思科、NetApp 和 SK 海力士。投资者方面，该公司此前的投资者高榕 Capital、Glory Ventures、Jerusalem Venture Partners、LDV、Lightspeed Venture Partners和Northern Light Venture Partners也参

06-18
全场景互动CEM服务商“小易数智”完成数千万元天使轮融资

据投资界（ID：pedaily）7月13日消息，近日，全场景互动CEM服务提供商“小医数智”宣布完成数千万元天使轮融资，由深创投领投，国宏嘉信资本跟投，青通资本跟投。小蚁数智创始人&CEO宋博表示，本轮融资将主要用于SaaS产研团队的扩充、武汉产研基地的建设以及北京本地市场和

06-18
《知行合一》已完成近千万元天使轮融资

《知行合一》近日完成近千万元天使轮融资。本轮融资由天使投资人黄建个人投资完成。本次融资所筹资金将主要用于人才储备和补充流动资金。智行合一成立于2019年10月，是一家总部位于广东珠海、专注于为失能、半失能老年人提供医养结合的服务型企业。服务范围涵盖老年慢性

06-17
汽车智能科技公司“美嘉科技”完成超亿美元融资

36氪独家获悉，汽车智能科技公司“美嘉科技”近期完成超亿美元融资，领投由超越资本。湾区共同家园发展基金及南山资本、红点中国、山航资本等老股东也参与投资。泰合之都充当专属财务顾问。美嘉科技CEO庄莉透露，本轮融资发生得很快。该项目于去年12月底启动，今年3月竣工

06-18
外资资管巨头蜂拥而至

10月以来，上海迎来了包括负责人在内的多家知名外资金融机构的到访。 10月19日，上海市地方金融监管局局长周小全会见摩根士丹利投资管理亚洲区首席运营官、摩根士丹利基金管理（中国）有限公司首席运营官托德科尔特曼一行。 10月16日，周小全会见法国农业信贷银行（中国）有限

06-17
外媒：TikTok讨论不出售美国业务的解决方案

当地时间9月10日，据《华尔街日报》报道，TikTok母公司字节跳动正在与美国政府讨论可能的解决方案，以避免TikTok广受欢迎的应用程序短视频正在出售其全部美国业务。自从中国政府采取措施加大TikTok向微软等美国科技公司巨头出售业务的难度以来，围绕TikTok不出售的讨论就变得

06-18
集成电路芯片开发商“中科瀚天下”获3000万元C轮融资

据投资界11月19日消息，集成电路芯片开发商“中科瀚天下”于今年8月完成万元C轮融资，同心企业、浑璞投资、南京科芯为新股东。据了解，中科瀚天下成立于2007年，是一家集成电路芯片开发商。主要从事射频/模拟集成电路和SoC系统集成电路的开发，以及应用解决方案的研究、开

06-17
“易小象”完成Pre-A轮融资，南开大学创新基金注资

据6月10日消息，在线少儿象棋教育公司“易小象”近日完成Pre-A轮融资，获南开大学创新基金注资。本轮融资之前，公司还获得了北塔资本的天使轮投资。本轮资金将主要用于产品技术开发、人才引进和教学服务质量提升。 “玩小象”成立于2007年，专注于4-12岁儿童的象棋启蒙教育

06-17
20亿元专精特新（金华）母基金在金华启动

据投资界（ID：pedaily）消息，3月28日下午，浙江省专精特新（金华）基金基金协议签字仪式在金华举行。继浙江省科技创新专项基金（二期）之后，又一省级“四”专项资金落户金华。浙江省专精特新（金华）母基金注册在金华市，总规模20亿元。由浙江省产业基金、金华市产业基

06-17
天下无贼反信息诈骗联盟升维大数据构筑新防御体系

天下无贼反信息诈骗联盟升维大数据构筑新防御体系 2020年1月14日，全国首个反信息诈骗联盟——天下无贼反信息诈骗联盟召开新闻发布会，庆祝其成立深圳周年庆。大会以“大数据天网，新系统防御”为主题，发布了《反信息诈骗大数据报告》（以下简称《报告》），首次对欺诈产业

06-18