首页 > 科技未来 > 内容

OpenAI有对手吗？ a16z实用资讯：2024年AI视频产品将走向何方

发布于：2024-06-17 编辑：匿名来源：网络

简介新年伊始同样来自OpenAI。

节后开工前，Altman推出了继ChatGPT之后的第二个杀手级应用Sora，秒杀所有人。

看完60秒的演示视频，适道心里只有一句话：没人想打球。

赶紧恢复理智，在空的统治下还有其他的机会吗？我们先来看看a16z发布的展望——《AI视频为何是爆发年，展望如何》，看看这条赛道给其他玩家留下了哪些空间。

利用好巨头的“歼灭战”窗口期。

OpenAI推出Sora并不令人意外。

令人惊讶的是，索拉的力量强大到难以想象。

详细看AI视频赛道，有两个非常清晰的逻辑。

一是人工智能视频的快速发展。

年初还出现了文生的公开视频模型。

仅仅12个月后，包括Runway、Pika、Genmo、Stable Video Diffusion等数十种视频生成产品投入使用。

a16z认为，如此巨大的进步表明我们正处于大规模变革的开始阶段——这类似于图像生成技术的发展。

文本转视频模式不断发展和完善，图像转视频、视频转视频等分支也蓬勃发展。

其次，巨头的出现只是时间问题。

今年注定是多模态人工智能爆发的一年。

然而，细分21个公开的AI视频模型，大多数来自初创公司。

谷歌、Meta等公司的科技巨头表面上平静如湖水，但表面之下却暗流涌动。

巨头并没有停止发表与视频生成相关的论文；与此同时，他们还在发布演示版视频，但没有公布模型的发布时间，例如OpenAI发布的Sora。

示范工作明明已经成熟了，巨头为何不赶紧发布呢？ a16z认为，出于法律、安全和版权方面的考虑，巨头很难将科研成果转化为产品，因此需要推迟产品上市，这让新玩家拥有了先发优势。

适道认为，最关键的因素是“网络效应”并不重要——玩家不是赢家，但技术*才是赢家。

有了可以生成60s视频的Sora，你还会迷恋可以生成4s视频的Pika吗？但这并不意味着初创公司注定要失败。

因为在这个法则下，巨头人不会走得太快。

初创企业需要抓住“窗口期”，尽快发布产品，吸引一波新用户，赚一波快钱，尤其是在国内市场。

补充一下阿里巴巴科技前副总裁、目前从事??AI架构创业的贾扬清的观点：1、与OpenAI竞争的公司有一波被其他大厂商收购的机会fomo。

2、从小型算法厂商的角度来看，要么在算法上与OpenAI媲美，要么在垂直领域深度开发应用，要么选择开源。

（创业网）“学术大师”Sora的实力如何？目前，大多数AI视频产品尚未解决核心问题：可控性、时间连贯性、时长。

可控性：用文字“描述”来控制画面中人物的移动轨迹。

当然，有些公司可以在视频生成之前为用户提供控制权。

例如，Runway 的运动画笔可让用户突出显示图像的特定区域并确定其运动。

时间连贯性：不同帧之间的人物、物体和背景保持一致，不失真。

持续时间：您可以创建超过几秒的视频吗？视频的持续时间与时间连贯性密切相关。

许多产品限制视频持续时间，因为任何形式的一致性都无法保证超过几秒钟。

如果您看到一个长视频，它很可能由许多短片组成，通常需要输入数十甚至数百个命令。

Sora的强大之处就在于突破上述问题。

1.时间连贯性——前景中的人来来去去，但主体始终保持不变 2.持续时间——轻松生成60秒 3.可控性——画家的手部动作非常真实。

不仅如此，Sora 还能更好地理解物质世界。

养猫的人应该明白这个视频的价值，它居然模拟了一只猫“踩牛奶”！索拉之所以能够实现这样的突破，是因为OpenAI走了一条独特的道路。

假设 Sora 是一个住在家里的孩子。

他了解外界的方式就是观看各种视频和图片。

但索拉的孩子只能理解简单的信息，因此OpenAI为他们量身打造了一套启蒙学习课程——利用“视频压缩网络”技术，将所有“复杂”的视频和图片压缩成较低维度的表示，转换成“孩子” ” 更容易让 Sora 理解的格式。

让我们举一个不太合适的例子。

“视频压缩网络”技术就是将成人能理解的电影核心内容转换成Sora更容易理解的《小猪佩奇》剧集。

在理解“学习信息”的阶段，空进一步将压缩的信息数据分解为“小拼图”——“时空补丁”。

一方面，这些“小拼图”是视觉内容的基本构建块。

无论原始视频风格如何，Sora 都可以将它们处理成一致的格式，就像每张照片都可以分解为包含独特的风景、颜色和纹理一样。

“小谜题”；另一方面，由于这些“谜题”足够小并且包含时空信息，Sora可以更详细地处理视频的每个小片段，并考虑和预测时空变化。

在“学习成果”生成阶段，Sora根据文字提示生成视频内容。

这个过程依赖于Sora的大脑——扩散变压器模型。

通过预先训练的 Transformer，Sora 可以识别每个“小谜题”的内容，并根据文字提示快速找到自己学过的“小谜题”，将它们组合在一起，生成与文字匹配的视频。

内容。

通过扩散模型，Sora可以消除不必要的“噪音”，逐渐使混乱的视频信息变得更加清晰。

例如，一本涂鸦本上有很多无意义的线条。

索拉利用文字说明，将这些无意义的台词优化成主题明确的画面。

之前的AI视频模型大多通过循环网络、生成对抗网络、自回归Transformers、扩散模型等技术对视频数据进行建模。

结果是，“学生大师”空明白了物质世界动态变化的原理并实现了一切。

其他选手在学会了如何解决每一道题后，只是抄葫芦画瓢，所以被“打败”也是可以理解的。

未来AI视频产品将如何发展？根据a16z的展望，AI视频产品仍有一些需要解决的空间。

首先，高质量的训练数据从哪里来？与其他内容模态相比，视频模型训练更加困难，主要是因为没有那么多高质量的、有标签的训练数据。

语言模型通常在 Common Crawl 等公共数据集上进行训练，而图像模型则在 LAION 和 ImageNet 等标记数据集（文本图像对）上进行训练。

视频数据的获取比较困难。

虽然 YouTube 和 TikTok 等平台上不乏公开可见的视频，但这些视频没有标签，而且可能不够多样化（例如，猫视频和名人道歉等内容在数据集中可能过多）。

基于此，a16z认为，视频数据的“圣杯”可能来自于拥有多角度拍摄的长视频、完整的剧本和描述的工作室或制作公司。

然而，目前尚不清楚他们是否愿意授权这些数据进行训练。

适道认为，除了科技巨头，从长远来看，以国外Netflix、迪士尼为代表的行业巨头；而国内的“爱优腾”也不容忽视。

这些公司积累了数十亿的会员评论，熟悉受众习惯和需求，有数据壁垒和应用场景。

去年1月，Netflix发布了一部AI动画短片《犬与少年（Dog and Boy）》。

动画场景的绘制工作是由AI完成的。

说到国内对标，AI视频赛道大概率仍将由各大互联网公司主导。

其次，用例如何跨平台/模型分解？ a16z 认为一种模型并不“适合”所有用例。

例如，Midjourney、Ideogram、DALL-E等都有独特的风格，擅长生成不同类型的图像。

视频模型预计也会出现类似的动态。

围绕这些模型开发的产品可能会在工作流程方面进一步差异化，并服务于不同的终端市场。

例如，动画角色头像 (HeyGen)、视觉* (Wonder Dynamics) 和视频到视频 (DomoAI)。

适道相信，这些问题最终都会被空一举解决。

但对于国内的玩家来说，或许也是一个“中间人赚差价”的机会。

第三，谁来决定工作流程？当前大多数产品仅专注于一种类型的内容并且功能有限。

我们经常可以看到这样的视频：先用Midjourney画图，然后将Pika放入Pika中进行动画处理，然后在Topaz上放大。

然后，创作者将视频导入 Capcut 或 Kapwing 等编辑平台，并添加配乐和画外音（由 Suno 和 ElevenLabs 或其他产品生成）。

这个过程显然不够“智能”。

对于用户来说，他们非常希望有一个“一键生成”的平台。

根据 a16z 的展望，一些新兴一代产品将添加更多工作流程功能，并扩展到其他类型的内容生成 - 通过训练自己的模型、利用开源模型或与其他供应商合作。

首先，视频生成平台将开始添加一些功能。

例如，Pika 允许用户放大其网站上的视频。

此外，Sora现在还可以创建*循环视频、动画静态图像、向前或向后扩展视频等，并具有编辑视频的能力。

但具体编辑效果会如何，还需要等待打开后的测试。

其次，人工智能原生编辑平台已经出现，允许用户“插入”不同的模型并将内容拼凑在一起。

可以预见，未来大量的内容生产者将同时使用人工智能和人工生成的内容。

因此，能够“丝滑”编辑这两类内容的产品将会非常受欢迎。

OpenAI有对手吗？ a16z实用资讯：2024年AI视频产品将走向何方

这可能是玩家家族的最新机会。

【本文由投资界合伙人微信公众号授权：适道。

本平台仅提供信息存储服务。

】如有任何疑问，请联系投资界（）。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态，提供一站式资讯服务，实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

趋势和行业变化，以及对未来技术趋势的洞察。

站长声明

标签：

上一篇：芯业科技：2020年第四季度营收18.53亿元，同比增长50.3%

下一篇：优剪获经纬中国数千万美元A轮融资，互联网思维正在对传统美发进行“减法”

怡亚通星链获得过亿元Pre-A轮融资，投资方为中融国际信托，

据投资界3月20日消息，星链获得过亿元Pre-A轮融资。本轮融资由中融国际信托战略投资。星链是深圳怡亚通供应链股份有限公司旗下子公司，成立于2001年，目前拥有多名员工，其中不乏超人技术研发人员。 2018年全面启动独立运营。 “星链供应链云”是国内首个共享供应链云经济

06-17
云南产投首次引入产业资本共组产业基金，4.5亿元

云南省工投首次引入产业资本，组建产业基金，总投资4.5亿元。据投资界（ID：pedaily）11月11日消息，云南省产业投资基金有限责任公司（以下简称“云南省产业投资”）与温氏投资于近日共同设立温润黄金基金，规模为4.5亿元。这是云南产投首次引入产业资本共同组建产业基金。

06-18
合龙优化完成5000万元B轮融资，东华软件领投

据投资界9月16日消息，流程工业智能优化解决方案服务商合龙优化成功完成1万元B轮融资。本轮融资由东华华软件领投，黔城资本跟投。据悉，合龙优化成立于2019年8月，2018年8月在新三板挂牌，目前总股本1万元。据了解，合龙优化已帮助28个省、市、自治区的多家企业实现冶金、

06-18
Michal Siwinski 加入 Arteris IP 担任首席营销官

作为在 EDA、IP 和半导体领域拥有丰富实践经验的高级管理人员，他将带领公司进入新的增长阶段 2020 年 3 月 22 日 – 业界领先的片上网络 (NoC) ) Arteris IP（纳斯达克股票代码：AIP）是一家片上系统 (SoC) 系统 IP 提供商，提供互连和 IP 部署软件，可加速 SoC 的创建，今

06-06
为什么新冠病毒疫情不一定起源于中国？

疫情预测首先考虑的是中国而不是外国。但从国外目前的一些情况来看，疫情首先出现在中国，并不一定起源于中国。 2019年2月27日，在广州市政府新闻办举行的疫情防控专题新闻通气会上，国家卫健委专家委员会高级委员组长、国家呼吸病防治所所长钟南山临床研究中心如此表示。【

06-17
米德兰泰科完成新一轮超亿元融资，加速脑损伤血液检测系统商业化

据投资界（ID：pedaily）9月22日消息，米德兰泰科宣布完成新一轮融资超亿元。人民币融资。本轮融资由中信医疗基金、华金投资、老股东ETP等知名投资人投资，清科资本独家投资。本轮融资将主要用于米德兰泰科国内首个脑外伤血液检测系统和MS-FAST?Pro系列化学发光POCT产品线

06-17
首次发布 -理湃光晶完成数千万元A轮融资

据投资界1月25日消息，近日，国内领先量产AR光波导模组公司理湃光晶宣布完成数千万元A轮融资A轮融资。本轮融资由云晖资本领投，凯风创投、上市公司天一股份（04）跟投，多维海拓担任独家财务顾问。理湃光晶CEO李伟表示：理湃光晶团队自2016年以来一直专注于光波导技术的研

06-17
「穗瑞科技」获Pre-IPO轮近6亿元融资

据3月1日消息，「穗瑞科技」获金茂资本、国投创益、郭台铭基金、盛世晶等专业机构近6亿元投资基金Pre-IPO轮融资。本轮融资，随锐科技将用于加大研发和市场推广投入。 “穗锐科技”成立于2009年，集团主营业务之一是通信云产品及解决方案。公司拥有中国工业和信息化部颁发的

06-17
中芯国际天津工厂首个设备扩产计划继续进行

科技动态：据媒体报道，中国晶圆代工厂中芯国际天津工厂近日举行首个P2 Full Flow产能扩产计划设备入驻仪式。测试设备主要制造商KLA-Tencor China的RS型测试设备是首批进驻中芯国际天津工厂的设备。据了解，中芯国际天津工厂成立于2015年，2018年1月收购摩托罗拉（中国）电

06-06
湖南省株洲市设立数字产业链专项基金，初始规模3亿元，

投资圈（微信ID：pedaily）7月6日报道，为了稳定和发展这条数字产业链，株洲经济开发区设立了专项发展基金，首期规模3亿元，主要投资人工智能、大数据及其上下游产业链。专项基金成立当天，已有10余家人工智能、大数据企业入驻，形成了从前端研究设计到中端产品生产、场景应

06-17
投资世界24小时-刘强东与章泽天共同成立私募股权公司；吉塔半导体完成80亿元融资； 9.2亿美元，光速中国史上最大规模融资诞生

延伸阅读时间：2020年12月1日星期三重要消息刘强东与章泽天成立合资公司据私募股权公司投资界消息11月30日，海南三亚天博产业私募基金管理有限公司于11月29日成立，该公司由刘强东、章泽天、李瑞玉共同持有。天眼查显示，海南三亚天博产业私募基金管理有限公司的法定代表人为

06-17
全国首支酒业风险投资基金落地海南海口

投资界（ID：pedaily）消息，2月21日，酒业创新投资大会（AIIC）在海南海口举行。会上，春光利产业资本、复星汉兴股权投资基金与白酒产业创新投资大会达成战略合作，共同推出AIIC产业投资基金产品。 AIIC产业投资基金规模达10亿元，重点孵化时尚酒类品牌。、历史老品牌复兴

06-18