创造直播|新一代探索不凡,加速创新
06-17
不久前,OpenAISora以其令人惊叹的视频生成效果迅速走红。
他在文生视频模特中脱颖而出,成为全球关注的焦点。
继两周前推出成本降低46%的Sora训练推理复现流程后,Colossal-AI团队全面开源了全球首个类Sora建筑视频生成模型“Open-Sora 1.0”,涵盖整个训练过程,包括数据处理、所有训练细节和模型权重,携手全球AI爱好者,推动视频创作新时代。
我们先来看看Colossal-AI团队发布的“Open-Sora 1.0”模型生成的繁华都市视频。
这只是Sora复制技术的冰山一角。
关于上述文生视频的模型架构、训练的模型权重、复现的所有训练细节、数据预处理过程、演示展示以及详细的上手教程,Colossal-AI团队已经在GitHub上完全免费开源。
同时,笔者立即联系了团队,获悉他们将持续更新Open-Sora的相关解决方案和最新动态。
感兴趣的朋友可以继续关注Open-Sora开源社区。
Open-Sora开源地址:全面解读Sora复出计划。
接下来,我们将深入解读Sora递归计划的多个关键维度,包括模型架构设计、训练递归计划、数据预处理、模型生成效果展示、高效训练。
优化策略。
模型架构设计模型采用当前流行的Diffusion Transformer(DiT)[1]架构。
作者团队使用高质量的开源文生图模型PixArt-α[2],该模型也采用DiT架构作为基础,在此基础上引入时间注意力层,并将其扩展到视频数据。
具体来说,整个架构包括预训练的 VAE、文本编码器和利用时空注意力机制的 STDiT(空间时空扩散变换器)模型。
其中,STDiT各层结构如下图所示。
它采用串行方法将一维时间注意力模块叠加在二维空间注意力模块上来建模时间关系。
在时间注意力模块之后,使用交叉注意力模块来对齐文本的语义。
与全注意力机制相比,这样的结构大大减少了训练和推理的开销。
与同样采用时空注意力机制的 Latte [3] 模型相比,STDiT 可以更好地利用预训练图像 DiT 的权重来继续对视频数据进行训练。
STDiT结构示意图。
整个模型的训练和推理过程如下。
据了解,在训练阶段,首先使用预训练的变分自动编码器(VAE)编码器来压缩视频数据,然后在压缩的潜在空间中与文本嵌入一起训练STDiT扩散模型。
在推理阶段,从 VAE 的潜在空间中随机采样高斯噪声,并与提示嵌入一起输入到 STDiT 中以获得去噪特征。
最后输入VAE解码器进行解码得到视频。
我们从团队了解到,该模型的训练过程和训练复制方案参考了 Open-Sora 的复制方案的稳定视频扩散(SVD)[3]工作,该方案由三个阶段组成,分别是: 1)大规模图像预处理-生产。
训练; 2)大规模视频预训练; 3)高质量视频数据的微调。
每个阶段都会根据前一阶段的权重继续训练。
与从头开始的单阶段训练相比,多阶段训练通过逐步扩展数据,更高效地实现高质量视频生成的目标。
训练计划分三个阶段第一阶段:大规模图像预训练第一阶段采用大规模图像预训练和成熟的文生图模型,有效降低视频预训练的成本。
作者团队向我们透露,通过互联网上丰富的大规模图像数据和先进的文生图技术,我们可以训练出高质量的文生图模型,该模型将作为下一阶段视频预处理的初始化权重。
训练。
同时,由于目前还没有高质量的时空VAE,因此他们使用了Stable Diffusion [5]模型预训练的图像VAE。
该策略不仅保证了初始模型的优越性能,还显着降低了视频预训练的总体成本。
第二阶段:大规模视频预训练。
第二阶段进行大规模视频预训练,增加模型泛化能力,有效掌握视频的时间序列相关性。
我们了解到,这个阶段需要使用大量的视频数据进行训练,保证视频主题的多样性,从而增加模型的泛化能力。
第二阶段模型在第一阶段文生图模型的基础上添加了时间注意力模块,以学习视频中的时间关系。
其余模块与第一阶段保持一致,加载第一阶段权重作为初始化,同时将时间注意力模块的输出初始化为零,以实现更高效、更快的收敛。
Colossal-AI团队使用PixArt-alpha [2]的开源权重作为第二阶段STDiT模型的初始化,并使用T5 [6]模型作为文本编码器。
同时,他们使用x的小分辨率进行预训练,进一步提高了收敛速度并降低了训练成本。
第三阶段:微调高质量视频数据。
第三阶段对高质量视频数据进行微调,显着提高视频生成的质量。

作者团队提到,第三阶段使用的视频数据大小比第二阶段小一个数量级,但视频的时长、分辨率和质量更高。
通过这种方式进行微调,他们实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效缩放。
作者团队表示,在Open-Sora再现过程中,他们使用了64块H进行训练。
第二阶段的总训练量为GPU小时,约为美元,第三阶段的训练量为GPU小时,约为美元。
经初步估算,整个训练计划成功将公开赛-Sora复发过程控制在1万美元左右。
数据预处理为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队还在代码仓库中提供了方便的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练,包括公开的视频数据集下载,长视频根据镜头连续性分为短视频段,并使用开源大语言模型LLaVA[7]生成精确的提示词。
作者团队提到,他们提供的批量视频标题生成代码可以用两张卡和3秒注释一个视频,质量接近GPT-4V。
生成的视频/文本对可以直接用于训练。
通过他们在GitHub上提供的开源代码,我们可以轻松快速地生成在我们自己的数据集上训练所需的视频/文本对,大大降低了启动Sora复制项目的技术门槛和前期准备。
根据数据预处理脚本自动生成的视频/文本模型生成效果展示。
我们来看看Open-Sora的实际视频生成效果。
例如,让 Open-Sora 生成海水拍打悬崖海岸岩石的航拍镜头。
让Open-Sora 鸟瞰壮丽的山川、河流和瀑布从悬崖上奔腾而下,最后流入湖中的壮丽景色。
除了上天之外,还可以入海。
只需输入提示,Open-Sora 即可生成海底世界的镜头。
镜头中,一只海龟在珊瑚礁间悠闲地游动。
开放式的Sora还可以用延时摄影的方式向我们展示星星闪烁的银河。
如果您对视频生成有更多有趣的想法,可以访问Open-Sora开源社区获取模型权重免费体验。
链接:值得注意的是,作者团队在Github上提到,当前版本仅使用K个训练数据,模型的生成质量和跟踪文本的能力有待提高。
例如,在上面的乌龟视频中,生成的乌龟有一条额外的腿。
Open-Sora 1.0也不擅长生成肖像和复杂图像。
作者团队在Github上列出了一系列要做的计划,旨在不断解决现有缺陷并提高生产质量。
高效的训练支持 除了大幅降低Sora复现的技术门槛,从时长、分辨率、内容等多个维度提升视频生成质量外,作者团队还提供了Colossal-AI加速系统,为Sora复现的高效训练提供支持。
Sora的复发。
通过算子优化、混合并行等高效训练策略,在处理64帧、x分辨率视频的训练中取得了1.55倍的加速效果。
同时,得益于Colossal-AI的异构内存管理系统,可以在单台服务器(8*H)上无障碍执行1分钟的p高清视频训练任务。
此外,在作者团队的报告中,我们还发现STDiT模型架构在训练过程中也表现出了出色的效率。
与采用全注意力机制的DiT相比,STDiT随着帧数的增加实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。
欢迎继续关注Open-Sora开源项目:作者团队提到,他们将继续维护和优化Open-Sora项目,预计将使用更多的视频训练数据来生成更高质量和更长的视频训练数据视频内容,并支持多分辨率特性,有效推动AI技术在电影、游戏、广告等领域的落地。
参考文献 [1] 使用 Transformer 的可扩展扩散模型 [2] PixArt-α:用于真实感文本到图像合成的扩散变压器的快速训练 [3] 稳定视频扩散:将潜在视频扩散模型缩放到大型数据集 [4] Latte:潜在用于视频生成的扩散变压器[5][6][7][8]雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。
详情请参见转载说明。
#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。
趋势和行业变化,以及对未来技术趋势的洞察。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-06
06-18
06-18
06-18
06-18
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态