意大利将于2022年1月底举行第八次可再生能源拍卖
06-08
简介 新年伊始同样来自OpenAI。
节后开工前,Altman推出了继ChatGPT之后的第二个杀手级应用Sora,秒杀所有人。
看完60秒的演示视频,适道心里只有一句话:没人想打球。
赶紧恢复理智,在空的统治下还有其他的机会吗?我们先来看看a16z发布的展望——《AI视频为何是爆发年,展望如何》,看看这条赛道给其他玩家留下了哪些空间。
利用好巨头的“歼灭战”窗口期。
OpenAI推出Sora并不令人意外。
令人惊讶的是,索拉的力量强大到难以想象。
详细看AI视频赛道,有两个非常清晰的逻辑。
一是人工智能视频的快速发展。
年初还出现了文生的公开视频模型。
仅仅12个月后,包括Runway、Pika、Genmo、Stable Video Diffusion等数十种视频生成产品投入使用。
a16z认为,如此巨大的进步表明我们正处于大规模变革的开始阶段——这类似于图像生成技术的发展。
文本转视频模式不断发展和完善,图像转视频、视频转视频等分支也蓬勃发展。
其次,巨头的出现只是时间问题。
今年注定是多模态人工智能爆发的一年。
然而,细分21个公开的AI视频模型,大多数来自初创公司。
谷歌、Meta等公司的科技巨头表面上平静如湖水,但表面之下却暗流涌动。
巨头并没有停止发表与视频生成相关的论文;与此同时,他们还在发布演示版视频,但没有公布模型的发布时间,例如OpenAI发布的Sora。
示范工作明明已经成熟了,巨头为何不赶紧发布呢? a16z认为,出于法律、安全和版权方面的考虑,巨头很难将科研成果转化为产品,因此需要推迟产品上市,这让新玩家拥有了先发优势。
适道认为,最关键的因素是“网络效应”并不重要——玩家不是赢家,但技术*才是赢家。
有了可以生成60s视频的Sora,你还会迷恋可以生成4s视频的Pika吗? 但这并不意味着初创公司注定要失败。
因为在这个法则下,巨头人不会走得太快。
初创企业需要抓住“窗口期”,尽快发布产品,吸引一波新用户,赚一波快钱,尤其是在国内市场。
补充一下阿里巴巴科技前副总裁、目前从事??AI架构创业的贾扬清的观点:1、与OpenAI竞争的公司有一波被其他大厂商收购的机会fomo。
2、从小型算法厂商的角度来看,要么在算法上与OpenAI媲美,要么在垂直领域深度开发应用,要么选择开源。
(创业网)“学术大师”Sora的实力如何? 目前,大多数AI视频产品尚未解决核心问题:可控性、时间连贯性、时长。
可控性:用文字“描述”来控制画面中人物的移动轨迹。
当然,有些公司可以在视频生成之前为用户提供控制权。
例如,Runway 的运动画笔可让用户突出显示图像的特定区域并确定其运动。
时间连贯性:不同帧之间的人物、物体和背景保持一致,不失真。
持续时间:您可以创建超过几秒的视频吗? 视频的持续时间与时间连贯性密切相关。
许多产品限制视频持续时间,因为任何形式的一致性都无法保证超过几秒钟。
如果您看到一个长视频,它很可能由许多短片组成,通常需要输入数十甚至数百个命令。
Sora的强大之处就在于突破上述问题。
1.时间连贯性——前景中的人来来去去,但主体始终保持不变 2.持续时间——轻松生成60秒 3.可控性——画家的手部动作非常真实。
不仅如此,Sora 还能更好地理解物质世界。
养猫的人应该明白这个视频的价值,它居然模拟了一只猫“踩牛奶”! 索拉之所以能够实现这样的突破,是因为OpenAI走了一条独特的道路。
假设 Sora 是一个住在家里的孩子。
他了解外界的方式就是观看各种视频和图片。
但索拉的孩子只能理解简单的信息,因此OpenAI为他们量身打造了一套启蒙学习课程——利用“视频压缩网络”技术,将所有“复杂”的视频和图片压缩成较低维度的表示,转换成“孩子” ” 更容易让 Sora 理解的格式。
让我们举一个不太合适的例子。
“视频压缩网络”技术就是将成人能理解的电影核心内容转换成Sora更容易理解的《小猪佩奇》剧集。
在理解“学习信息”的阶段,空进一步将压缩的信息数据分解为“小拼图”——“时空补丁”。
一方面,这些“小拼图”是视觉内容的基本构建块。
无论原始视频风格如何,Sora 都可以将它们处理成一致的格式,就像每张照片都可以分解为包含独特的风景、颜色和纹理一样。
“小谜题”;另一方面,由于这些“谜题”足够小并且包含时空信息,Sora可以更详细地处理视频的每个小片段,并考虑和预测时空变化。
在“学习成果”生成阶段,Sora根据文字提示生成视频内容。
这个过程依赖于Sora的大脑——扩散变压器模型。
通过预先训练的 Transformer,Sora 可以识别每个“小谜题”的内容,并根据文字提示快速找到自己学过的“小谜题”,将它们组合在一起,生成与文字匹配的视频。
内容。
通过扩散模型,Sora可以消除不必要的“噪音”,逐渐使混乱的视频信息变得更加清晰。
例如,一本涂鸦本上有很多无意义的线条。
索拉利用文字说明,将这些无意义的台词优化成主题明确的画面。
之前的AI视频模型大多通过循环网络、生成对抗网络、自回归Transformers、扩散模型等技术对视频数据进行建模。
结果是,“学生大师”空明白了物质世界动态变化的原理并实现了一切。
其他选手在学会了如何解决每一道题后,只是抄葫芦画瓢,所以被“打败”也是可以理解的。
未来AI视频产品将如何发展? 根据a16z的展望,AI视频产品仍有一些需要解决的空间。
首先,高质量的训练数据从哪里来? 与其他内容模态相比,视频模型训练更加困难,主要是因为没有那么多高质量的、有标签的训练数据。
语言模型通常在 Common Crawl 等公共数据集上进行训练,而图像模型则在 LAION 和 ImageNet 等标记数据集(文本图像对)上进行训练。
视频数据的获取比较困难。
虽然 YouTube 和 TikTok 等平台上不乏公开可见的视频,但这些视频没有标签,而且可能不够多样化(例如,猫视频和名人道歉等内容在数据集中可能过多)。
基于此,a16z认为,视频数据的“圣杯”可能来自于拥有多角度拍摄的长视频、完整的剧本和描述的工作室或制作公司。
然而,目前尚不清楚他们是否愿意授权这些数据进行训练。
适道认为,除了科技巨头,从长远来看,以国外Netflix、迪士尼为代表的行业巨头;而国内的“爱优腾”也不容忽视。
这些公司积累了数十亿的会员评论,熟悉受众习惯和需求,有数据壁垒和应用场景。
去年1月,Netflix发布了一部AI动画短片《犬与少年(Dog and Boy)》。
动画场景的绘制工作是由AI完成的。
说到国内对标,AI视频赛道大概率仍将由各大互联网公司主导。
其次,用例如何跨平台/模型分解? a16z 认为一种模型并不“适合”所有用例。
例如,Midjourney、Ideogram、DALL-E等都有独特的风格,擅长生成不同类型的图像。
视频模型预计也会出现类似的动态。
围绕这些模型开发的产品可能会在工作流程方面进一步差异化,并服务于不同的终端市场。
例如,动画角色头像 (HeyGen)、视觉* (Wonder Dynamics) 和视频到视频 (DomoAI)。
适道相信,这些问题最终都会被空一举解决。
但对于国内的玩家来说,或许也是一个“中间人赚差价”的机会。
第三,谁来决定工作流程? 当前大多数产品仅专注于一种类型的内容并且功能有限。
我们经常可以看到这样的视频:先用Midjourney画图,然后将Pika放入Pika中进行动画处理,然后在Topaz上放大。
然后,创作者将视频导入 Capcut 或 Kapwing 等编辑平台,并添加配乐和画外音(由 Suno 和 ElevenLabs 或其他产品生成)。
这个过程显然不够“智能”。
对于用户来说,他们非常希望有一个“一键生成”的平台。
根据 a16z 的展望,一些新兴一代产品将添加更多工作流程功能,并扩展到其他类型的内容生成 - 通过训练自己的模型、利用开源模型或与其他供应商合作。
首先,视频生成平台将开始添加一些功能。
例如,Pika 允许用户放大其网站上的视频。
此外,Sora现在还可以创建*循环视频、动画静态图像、向前或向后扩展视频等,并具有编辑视频的能力。
但具体编辑效果会如何,还需要等待打开后的测试。
其次,人工智能原生编辑平台已经出现,允许用户“插入”不同的模型并将内容拼凑在一起。
可以预见,未来大量的内容生产者将同时使用人工智能和人工生成的内容。
因此,能够“丝滑”编辑这两类内容的产品将会非常受欢迎。

这可能是玩家家族的最新机会。
【本文由投资界合伙人微信公众号授权:适道。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。
趋势和行业变化,以及对未来技术趋势的洞察。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-18
06-18
06-17
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态