首页 > 科技未来 > 内容

Open-Sora全面开源模型参数和所有训练细节

发布于:2024-06-18 编辑:匿名 来源:网络

不久前,OpenAISora以其令人惊叹的视频生成效果迅速走红。

他在文生视频模特中脱颖而出,成为全球关注的焦点。

继两周前推出成本降低46%的Sora训练推理复现流程后,Colossal-AI团队全面开源了全球首个类Sora建筑视频生成模型“Open-Sora 1.0”,涵盖整个训练过程,包括数据处理、所有训练细节和模型权重,携手全球AI爱好者,推动视频创作新时代。

我们先来看看Colossal-AI团队发布的“Open-Sora 1.0”模型生成的繁华都市视频。

这只是Sora复制技术的冰山一角。

关于上述文生视频的模型架构、训练的模型权重、复现的所有训练细节、数据预处理过程、演示展示以及详细的上手教程,Colossal-AI团队已经在GitHub上完全免费开源。

同时,笔者立即联系了团队,获悉他们将持续更新Open-Sora的相关解决方案和最新动态。

感兴趣的朋友可以继续关注Open-Sora开源社区。

Open-Sora开源地址:全面解读Sora复出计划。

接下来,我们将深入解读Sora递归计划的多个关键维度,包括模型架构设计、训练递归计划、数据预处理、模型生成效果展示、高效训练。

优化策略。

模型架构设计模型采用当前流行的Diffusion Transformer(DiT)[1]架构。

作者团队使用高质量的开源文生图模型PixArt-α[2],该模型也采用DiT架构作为基础,在此基础上引入时间注意力层,并将其扩展到视频数据。

具体来说,整个架构包括预训练的 VAE、文本编码器和利用时空注意力机制的 STDiT(空间时空扩散变换器)模型。

其中,STDiT各层结构如下图所示。

它采用串行方法将一维时间注意力模块叠加在二维空间注意力模块上来建模时间关系。

在时间注意力模块之后,使用交叉注意力模块来对齐文本的语义。

与全注意力机制相比,这样的结构大大减少了训练和推理的开销。

与同样采用时空注意力机制的 Latte [3] 模型相比,STDiT 可以更好地利用预训练图像 DiT 的权重来继续对视频数据进行训练。

STDiT结构示意图。

整个模型的训练和推理过程如下。

据了解,在训练阶段,首先使用预训练的变分自动编码器(VAE)编码器来压缩视频数据,然后在压缩的潜在空间中与文本嵌入一起训练STDiT扩散模型。

在推理阶段,从 VAE 的潜在空间中随机采样高斯噪声,并与提示嵌入一起输入到 STDiT 中以获得去噪特征。

最后输入VAE解码器进行解码得到视频。

我们从团队了解到,该模型的训练过程和训练复制方案参考了 Open-Sora 的复制方案的稳定视频扩散(SVD)[3]工作,该方案由三个阶段组成,分别是: 1)大规模图像预处理-生产。

训练; 2)大规模视频预训练; 3)高质量视频数据的微调。

每个阶段都会根据前一阶段的权重继续训练。

与从头开始的单阶段训练相比,多阶段训练通过逐步扩展数据,更高效地实现高质量视频生成的目标。

训练计划分三个阶段第一阶段:大规模图像预训练第一阶段采用大规模图像预训练和成熟的文生图模型,有效降低视频预训练的成本。

作者团队向我们透露,通过互联网上丰富的大规模图像数据和先进的文生图技术,我们可以训练出高质量的文生图模型,该模型将作为下一阶段视频预处理的初始化权重。

训练。

同时,由于目前还没有高质量的时空VAE,因此他们使用了Stable Diffusion [5]模型预训练的图像VAE。

该策略不仅保证了初始模型的优越性能,还显着降低了视频预训练的总体成本。

第二阶段:大规模视频预训练。

第二阶段进行大规模视频预训练,增加模型泛化能力,有效掌握视频的时间序列相关性。

我们了解到,这个阶段需要使用大量的视频数据进行训练,保证视频主题的多样性,从而增加模型的泛化能力。

第二阶段模型在第一阶段文生图模型的基础上添加了时间注意力模块,以学习视频中的时间关系。

其余模块与第一阶段保持一致,加载第一阶段权重作为初始化,同时将时间注意力模块的输出初始化为零,以实现更高效、更快的收敛。

Colossal-AI团队使用PixArt-alpha [2]的开源权重作为第二阶段STDiT模型的初始化,并使用T5 [6]模型作为文本编码器。

同时,他们使用x的小分辨率进行预训练,进一步提高了收敛速度并降低了训练成本。

第三阶段:微调高质量视频数据。

第三阶段对高质量视频数据进行微调,显着提高视频生成的质量。

Open-Sora全面开源模型参数和所有训练细节

作者团队提到,第三阶段使用的视频数据大小比第二阶段小一个数量级,但视频的时长、分辨率和质量更高。

通过这种方式进行微调,他们实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效缩放。

作者团队表示,在Open-Sora再现过程中,他们使用了64块H进行训练。

第二阶段的总训练量为GPU小时,约为美元,第三阶段的训练量为GPU小时,约为美元。

经初步估算,整个训练计划成功将公开赛-Sora复发过程控制在1万美元左右。

数据预处理为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队还在代码仓库中提供了方便的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练,包括公开的视频数据集下载,长视频根据镜头连续性分为短视频段,并使用开源大语言模型LLaVA[7]生成精确的提示词。

作者团队提到,他们提供的批量视频标题生成代码可以用两张卡和3秒注释一个视频,质量接近GPT-4V。

生成的视频/文本对可以直接用于训练。

通过他们在GitHub上提供的开源代码,我们可以轻松快速地生成在我们自己的数据集上训练所需的视频/文本对,大大降低了启动Sora复制项目的技术门槛和前期准备。

根据数据预处理脚本自动生成的视频/文本模型生成效果展示。

我们来看看Open-Sora的实际视频生成效果。

例如,让 Open-Sora 生成海水拍打悬崖海岸岩石的航拍镜头。

让Open-Sora 鸟瞰壮丽的山川、河流和瀑布从悬崖上奔腾而下,最后流入湖中的壮丽景色。

除了上天之外,还可以入海。

只需输入提示,Open-Sora 即可生成海底世界的镜头。

镜头中,一只海龟在珊瑚礁间悠闲地游动。

开放式的Sora还可以用延时摄影的方式向我们展示星星闪烁的银河。

如果您对视频生成有更多有趣的想法,可以访问Open-Sora开源社区获取模型权重免费体验。

链接:值得注意的是,作者团队在Github上提到,当前版本仅使用K个训练数据,模型的生成质量和跟踪文本的能力有待提高。

例如,在上面的乌龟视频中,生成的乌龟有一条额外的腿。

Open-Sora 1.0也不擅长生成肖像和复杂图像。

作者团队在Github上列出了一系列要做的计划,旨在不断解决现有缺陷并提高生产质量。

高效的训练支持 除了大幅降低Sora复现的技术门槛,从时长、分辨率、内容等多个维度提升视频生成质量外,作者团队还提供了Colossal-AI加速系统,为Sora复现的高效训练提供支持。

Sora的复发。

通过算子优化、混合并行等高效训练策略,在处理64帧、x分辨率视频的训练中取得了1.55倍的加速效果。

同时,得益于Colossal-AI的异构内存管理系统,可以在单台服务器(8*H)上无障碍执行1分钟的p高清视频训练任务。

此外,在作者团队的报告中,我们还发现STDiT模型架构在训练过程中也表现出了出色的效率。

与采用全注意力机制的DiT相比,STDiT随着帧数的增加实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。

欢迎继续关注Open-Sora开源项目:作者团队提到,他们将继续维护和优化Open-Sora项目,预计将使用更多的视频训练数据来生成更高质量和更长的视频训练数据视频内容,并支持多分辨率特性,有效推动AI技术在电影、游戏、广告等领域的落地。

参考文献 [1] 使用 Transformer 的可扩展扩散模型 [2] PixArt-α:用于真实感文本到图像合成的扩散变压器的快速训练 [3] 稳定视频扩散:将潜在视频扩散模型缩放到大型数据集 [4] Latte:潜在用于视频生成的扩散变压器[5][6][7][8]雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。

详情请参见转载说明。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

趋势和行业变化,以及对未来技术趋势的洞察。

Open-Sora全面开源模型参数和所有训练细节

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 创造直播|新一代探索不凡,加速创新

    创造直播|新一代探索不凡,加速创新

    Create@创新大赛旨在挖掘和发现“新一代创业者”,利用阿里云先进技术鼓励和支持创意生产、创业加速、创新突破,激发新一代创业者的创造力。

    06-17

  • Metcal助力清华大学智能制造项目

    Metcal助力清华大学智能制造项目

    Metcal助力清华大学智能制造项目 2020年6月24日,中国深圳——6月22日,OK国际受邀参加清华大学基础工业培训中心主办的“智能制造的现在与未来”研讨会。 会上,清华大学教授和行业专家围绕智能制造话题展开讨论,分享了清华大学在智能制造方面的成果。 此次,OK国际Metcal品

    06-06

  • 上海建工投资基石资本2亿

    上海建工投资基石资本2亿

    投资圈-解码LP消息,11月19日,上海建工(70)发布公告。 近日,公司全资子公司上海建工集团投资有限公司与上海建工集团投资有限公司深圳领信基石股权投资基金管理合伙企业(简称“基石资本”)等签署《深圳市鹏远基石私募股权投资基金合伙企业(有限合伙)合伙协议》。 根据

    06-18

  • 市值900亿,掀起护肤赛道

    市值900亿,掀起护肤赛道

    没想到竟然成为双11最畅销的国产护肤品。 投资界获悉,在今年的天猫双11护肤品TOP 10排名中,只有一个国产品牌上榜——薇诺娜。 主打功能性护肤品的薇诺娜在双11表现强劲,开卖仅49分钟就实现了超过去年全天的交易额。 首日销售额8.2亿元,位居天猫国货化妆品单品第一名。 是

    06-18

  • 2024年2月融资月报

    2024年2月融资月报

    1、一级市场投融资案例精选 2月份值得关注的一级市场投资案例中,涉及人工智能、新能源/新材料、医疗健康、企业服务、旅游、工业自动化、教育等领域。 投资方包括腾讯、阿里巴巴等互联网企业,小米、比亚迪等产业资本,越秀产业基金、河北机器人产业基金、上海科技创新基金、

    06-18

  • 长安阿维塔E11首发,三星发布240万亿韩元投资计划

    长安阿维塔E11首发,三星发布240万亿韩元投资计划

    8月24日,“长安汽车技术生态大会”在重庆召开。 发布会首日,长安汽车发布“新车、新生态”战略,宣布长安汽车将全面加速向智能低碳出行科技公司转型,重塑“新车+新生态”。 未来五年,长安汽车全产业链预计累计投入1亿元,构建科技企业科技生态圈,加快软件和智能化能力建

    06-17

  • 月入几万,只有打工才有买车的自由?

    月入几万,只有打工才有买车的自由?

    阿泽是1995年出生的年轻人,1995年加入深圳一家信息技术公司,两年半后在深圳购买了自己的第一辆车。 阿泽并不是新手司机。 拿到驾照后,他一有时间就会开家里的车。 “但开自己的车就不一样了,深圳的车很多,”他回忆道。 起初,他会摇下两扇前窗。 “因为窗户是隔音的,我

    06-18

  • 深度剖析商业保险与移动健康的中国式联姻

    深度剖析商业保险与移动健康的中国式联姻

    当前,随着国民对健康的重视,医疗健康保险的需求与日俱增。 与此同时,外资保险公司也更加看好中国的巨大潜力,尝试通过多种渠道进入中国市场。 事实是,更早之前,瑞士再保险和美国WellPoint相继成立医疗第三方管理公司(TPA)进入中国健康保险领域。 在国外,保险公司和健

    06-17

  • 中国唯一全栈数字化综合跨境物流平台“环球物流”完成17亿元人民币融资

    中国唯一全栈数字化综合跨境物流平台“环球物流”完成17亿元人民币融资

    本轮融资将用于继续建设跨境基础设施,进一步拓展全球市场,加速产业技术整合。

    06-17

  • HarmonyOS并不想取代Android,它的野心比你想象的还要大

    HarmonyOS并不想取代Android,它的野心比你想象的还要大

    在宗教艺术中,我们经常可以看到一座中途停下来的塔。 它被称为“巴别塔”。 ▲ 图片来自:维基百科 在宗教故事中,巴别塔是人类为了通向天堂而建造的一座塔。 但上帝为了阻止人类的这个计划,让人类不再说统一的语言,彼此之间无法沟通。 因此,巴别塔计划不得不放弃。 语言

    06-21

  • 摩根大通旗舰基金加仓京东

    摩根大通旗舰基金加仓京东

    晨星数据显示,摩根大通旗舰中国基金“JPMorgan Funds-China FundA (acc) – USD”最新基金规模为49.63亿美元。 3月份,该基金增持京东12.54倍。 加仓后,京东位列第四大持股,市值为2.12亿美元。 该基金持有的京东是港股。 目前尚不清楚该基金是否将美国上市的ADR转换为港股

    06-18

  • 红点中国荣登“名片”2022中国股权投资年度榜-红点新闻

    红点中国荣登“名片”2022中国股权投资年度榜-红点新闻

    “名片”作为中国领先的新一代商业信息服务平台,致力于帮助投资者获取及时、准确、完整的数据。 支持投资者做出正确决策,通过数据采集、问卷调查、数据验证等真实、严谨的研究方法,全面反映中国股权投资市场的情况。 截至2020年,企业名片企业创名服务团队已连续五年发布中

    06-17