首页 > 科技未来 > 内容

Open-Sora全面开源模型参数和所有训练细节

发布于:2024-06-18 编辑:匿名 来源:网络

不久前,OpenAISora以其令人惊叹的视频生成效果迅速走红。

他在文生视频模特中脱颖而出,成为全球关注的焦点。

继两周前推出成本降低46%的Sora训练推理复现流程后,Colossal-AI团队全面开源了全球首个类Sora建筑视频生成模型“Open-Sora 1.0”,涵盖整个训练过程,包括数据处理、所有训练细节和模型权重,携手全球AI爱好者,推动视频创作新时代。

我们先来看看Colossal-AI团队发布的“Open-Sora 1.0”模型生成的繁华都市视频。

这只是Sora复制技术的冰山一角。

关于上述文生视频的模型架构、训练的模型权重、复现的所有训练细节、数据预处理过程、演示展示以及详细的上手教程,Colossal-AI团队已经在GitHub上完全免费开源。

同时,笔者立即联系了团队,获悉他们将持续更新Open-Sora的相关解决方案和最新动态。

感兴趣的朋友可以继续关注Open-Sora开源社区。

Open-Sora开源地址:全面解读Sora复出计划。

接下来,我们将深入解读Sora递归计划的多个关键维度,包括模型架构设计、训练递归计划、数据预处理、模型生成效果展示、高效训练。

优化策略。

模型架构设计模型采用当前流行的Diffusion Transformer(DiT)[1]架构。

作者团队使用高质量的开源文生图模型PixArt-α[2],该模型也采用DiT架构作为基础,在此基础上引入时间注意力层,并将其扩展到视频数据。

具体来说,整个架构包括预训练的 VAE、文本编码器和利用时空注意力机制的 STDiT(空间时空扩散变换器)模型。

其中,STDiT各层结构如下图所示。

它采用串行方法将一维时间注意力模块叠加在二维空间注意力模块上来建模时间关系。

在时间注意力模块之后,使用交叉注意力模块来对齐文本的语义。

与全注意力机制相比,这样的结构大大减少了训练和推理的开销。

与同样采用时空注意力机制的 Latte [3] 模型相比,STDiT 可以更好地利用预训练图像 DiT 的权重来继续对视频数据进行训练。

STDiT结构示意图。

整个模型的训练和推理过程如下。

据了解,在训练阶段,首先使用预训练的变分自动编码器(VAE)编码器来压缩视频数据,然后在压缩的潜在空间中与文本嵌入一起训练STDiT扩散模型。

在推理阶段,从 VAE 的潜在空间中随机采样高斯噪声,并与提示嵌入一起输入到 STDiT 中以获得去噪特征。

最后输入VAE解码器进行解码得到视频。

我们从团队了解到,该模型的训练过程和训练复制方案参考了 Open-Sora 的复制方案的稳定视频扩散(SVD)[3]工作,该方案由三个阶段组成,分别是: 1)大规模图像预处理-生产。

训练; 2)大规模视频预训练; 3)高质量视频数据的微调。

每个阶段都会根据前一阶段的权重继续训练。

与从头开始的单阶段训练相比,多阶段训练通过逐步扩展数据,更高效地实现高质量视频生成的目标。

训练计划分三个阶段第一阶段:大规模图像预训练第一阶段采用大规模图像预训练和成熟的文生图模型,有效降低视频预训练的成本。

作者团队向我们透露,通过互联网上丰富的大规模图像数据和先进的文生图技术,我们可以训练出高质量的文生图模型,该模型将作为下一阶段视频预处理的初始化权重。

训练。

同时,由于目前还没有高质量的时空VAE,因此他们使用了Stable Diffusion [5]模型预训练的图像VAE。

该策略不仅保证了初始模型的优越性能,还显着降低了视频预训练的总体成本。

第二阶段:大规模视频预训练。

第二阶段进行大规模视频预训练,增加模型泛化能力,有效掌握视频的时间序列相关性。

我们了解到,这个阶段需要使用大量的视频数据进行训练,保证视频主题的多样性,从而增加模型的泛化能力。

第二阶段模型在第一阶段文生图模型的基础上添加了时间注意力模块,以学习视频中的时间关系。

其余模块与第一阶段保持一致,加载第一阶段权重作为初始化,同时将时间注意力模块的输出初始化为零,以实现更高效、更快的收敛。

Colossal-AI团队使用PixArt-alpha [2]的开源权重作为第二阶段STDiT模型的初始化,并使用T5 [6]模型作为文本编码器。

同时,他们使用x的小分辨率进行预训练,进一步提高了收敛速度并降低了训练成本。

第三阶段:微调高质量视频数据。

第三阶段对高质量视频数据进行微调,显着提高视频生成的质量。

Open-Sora全面开源模型参数和所有训练细节

作者团队提到,第三阶段使用的视频数据大小比第二阶段小一个数量级,但视频的时长、分辨率和质量更高。

通过这种方式进行微调,他们实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效缩放。

作者团队表示,在Open-Sora再现过程中,他们使用了64块H进行训练。

第二阶段的总训练量为GPU小时,约为美元,第三阶段的训练量为GPU小时,约为美元。

经初步估算,整个训练计划成功将公开赛-Sora复发过程控制在1万美元左右。

数据预处理为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队还在代码仓库中提供了方便的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练,包括公开的视频数据集下载,长视频根据镜头连续性分为短视频段,并使用开源大语言模型LLaVA[7]生成精确的提示词。

作者团队提到,他们提供的批量视频标题生成代码可以用两张卡和3秒注释一个视频,质量接近GPT-4V。

生成的视频/文本对可以直接用于训练。

通过他们在GitHub上提供的开源代码,我们可以轻松快速地生成在我们自己的数据集上训练所需的视频/文本对,大大降低了启动Sora复制项目的技术门槛和前期准备。

根据数据预处理脚本自动生成的视频/文本模型生成效果展示。

我们来看看Open-Sora的实际视频生成效果。

例如,让 Open-Sora 生成海水拍打悬崖海岸岩石的航拍镜头。

让Open-Sora 鸟瞰壮丽的山川、河流和瀑布从悬崖上奔腾而下,最后流入湖中的壮丽景色。

除了上天之外,还可以入海。

只需输入提示,Open-Sora 即可生成海底世界的镜头。

镜头中,一只海龟在珊瑚礁间悠闲地游动。

开放式的Sora还可以用延时摄影的方式向我们展示星星闪烁的银河。

如果您对视频生成有更多有趣的想法,可以访问Open-Sora开源社区获取模型权重免费体验。

链接:值得注意的是,作者团队在Github上提到,当前版本仅使用K个训练数据,模型的生成质量和跟踪文本的能力有待提高。

例如,在上面的乌龟视频中,生成的乌龟有一条额外的腿。

Open-Sora 1.0也不擅长生成肖像和复杂图像。

作者团队在Github上列出了一系列要做的计划,旨在不断解决现有缺陷并提高生产质量。

高效的训练支持 除了大幅降低Sora复现的技术门槛,从时长、分辨率、内容等多个维度提升视频生成质量外,作者团队还提供了Colossal-AI加速系统,为Sora复现的高效训练提供支持。

Sora的复发。

通过算子优化、混合并行等高效训练策略,在处理64帧、x分辨率视频的训练中取得了1.55倍的加速效果。

同时,得益于Colossal-AI的异构内存管理系统,可以在单台服务器(8*H)上无障碍执行1分钟的p高清视频训练任务。

此外,在作者团队的报告中,我们还发现STDiT模型架构在训练过程中也表现出了出色的效率。

与采用全注意力机制的DiT相比,STDiT随着帧数的增加实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。

欢迎继续关注Open-Sora开源项目:作者团队提到,他们将继续维护和优化Open-Sora项目,预计将使用更多的视频训练数据来生成更高质量和更长的视频训练数据视频内容,并支持多分辨率特性,有效推动AI技术在电影、游戏、广告等领域的落地。

参考文献 [1] 使用 Transformer 的可扩展扩散模型 [2] PixArt-α:用于真实感文本到图像合成的扩散变压器的快速训练 [3] 稳定视频扩散:将潜在视频扩散模型缩放到大型数据集 [4] Latte:潜在用于视频生成的扩散变压器[5][6][7][8]雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。

详情请参见转载说明。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

趋势和行业变化,以及对未来技术趋势的洞察。

Open-Sora全面开源模型参数和所有训练细节

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 无代码企业数字智能协作平台“Treelab”获数千万美元融资,红杉中国等领投

    无代码企业数字智能协作平台“Treelab”获数千万美元融资,红杉中国等领投

    国内无代码企业数字智能协作平台“Treelab”获数千万美元融资在A轮融资中,红杉中国与某战略投资者共同投资。 老股东GGV纪源资本、五源资本、明石资本均参与投资并支持。 穆棉担任专属财务顾问。 本轮融资后,Treelab将加大在产品研发、服务升级、市场拓展和人才方面的投入,

    06-18

  • 为B端客户提供移动音视频解决方案,美摄科技获小米投资

    为B端客户提供移动音视频解决方案,美摄科技获小米投资

    投资界消息,音视频技术研发及解决方案提供商美摄科技获得新一轮融资。 本轮融资的投资方为小米。 企查查数据显示,北京美摄网络科技有限公司于4月10日进行两次工商变更,小米投资主体天津金米投资合伙企业(有限合伙)成为新股东,持股1.67%;注册资本也增加至人民币10,000元

    06-18

  • 翌擎科技完成数千万元B1轮融资,耀明资本独家投资

    翌擎科技完成数千万元B1轮融资,耀明资本独家投资

    上海翌擎智能科技有限公司(简称“翌擎科技”)宣布完成数千万元B1轮融资B1轮融资。 本轮融资由兴富资本独家投资,木棉资本担任独家投资方。 翌擎科技CEO陆维琦表示,本轮募集的资金将用于打造汽车服务商SaaS平台。

    06-17

  • 商用清洁机器人的想象力有多大?

    商用清洁机器人的想象力有多大?

    进入21世纪第三个十年,我国产业结构进入快速升级阶段,落后产业逐步被淘汰,高端制造业蓬勃发展。 随之而来的是生产关系的调整:低附加值、简单的体力劳动,如运输、检验、清洁等被机器取代。 其中,清洁是生产、生活中的硬性要求。 无论是高档写字楼还是工厂园区,都需要日

    06-17

  • 旷视科技走向IPO:清华三名姚班学者估值300亿

    旷视科技走向IPO:清华三名姚班学者估值300亿

    科创板将迎来又一个AI独角兽。 昨晚(1月12日),北京证监局备案公告显示,旷视科技正在接受中信证券上市辅导,拟通过公开发行中国存托凭证(CDR)的方式在科创板上市。 随后,旷视科技也向投资界证实了这一消息。 这是由三位清华大学高材生联合打造的AI独角兽。 2006年,在清

    06-18

  • 山东工友即将赴德国上市,计划融资400万欧元

    山东工友即将赴德国上市,计划融资400万欧元

    山东工友集团股份有限公司(以下简称“山东工友”)在法兰克福证券交易所上市已进入倒计时。 该公司是第一家在德国上市的大陆公司。 得益于宽松的融资环境,越来越多的中国企业选择在欧洲上市。     春节前后上市    负责山东工友海外上市融资的陈经理表示:“山东工

    06-18

  • 【全球财经24小时】2024年4月12日投融资事件汇总及详情

    【全球财经24小时】2024年4月12日投融资事件汇总及详情

    欢迎订阅《全球财经24小时》系列文章,动动你的小手指,帮助我们更好更快地获取资讯给你~ 点击此处输入表格摘要。 今日全球市场共发生22起投资披露事件,其中境内11起,境外11起。 其中,国内先进制造业1例,医疗健康行业4例,汽车交通行业1例,企业服务业2例,人工智能行业1

    06-18

  • 蓝彩金服获数亿元C轮融资,加大人工智能、大数据研发

    蓝彩金服获数亿元C轮融资,加大人工智能、大数据研发

    据投资界5月31日消息,智能财富管理服务商蓝彩金服今日宣布,收购中建投(北京)投资基金管理有限公司股权,获得数亿元C轮融资。 此前,蓝彩金服已获得君联资本等公司的多轮投资,包括A轮、A+轮、B轮。   蓝彩金服表示,本轮融资将主要用于三个方面:  一是继续加大人工

    06-17

  • Kindle严重断货,亚马逊回应“下架”猜测

    Kindle严重断货,亚马逊回应“下架”猜测

    被调侃“一半方便面,一半闲鱼”的Kindle是亚马逊旗下的一款电子书阅读器。 自推出以来,它一直是该领域的代名词。 无论是给心灵充电,还是缓解“买书如潮,读书如纺纱”的症状,Kindle都是一剂良药。 近日,有网友指出Kindle大面积缺货,Kindle官方淘宝店关闭,Kindle京东自

    06-21

  • 裁员1.4万人,思科转型背后的阵痛

    裁员1.4万人,思科转型背后的阵痛

    硬件和算法在人工智能领域的作用可以说是各半,但在芯片层面,业界几乎一致——GPU在人工智能中的作用智能深度学习算法的重要性远高于CPU,这也是为什么NVIDIA在人工智能领域的受欢迎程度甚至超过了Intel。 毫无疑问,GPU 是训练深度学习神经网络最流行的方法。 该解决方案受

    06-18

  • 投资世界24小时-华熙生物开始销售玻尿酸饮用水;前小米高层副总裁周受资将出任字节跳动CFO;滴滴传拟赴美上市

    投资世界24小时-华熙生物开始销售玻尿酸饮用水;前小米高层副总裁周受资将出任字节跳动CFO;滴滴传拟赴美上市

    首个玻尿酸饮用水品牌“水鸡泉” 说起华熙生物,就不得不提其背后的女老板——赵燕。 2000年,一次偶然的机会,赵燕开始了玻尿酸生意。 多年后,他接管了中国玻尿酸行业的半壁江山,成为“玻尿酸王牌”。 2019年11月,华熙生物成功登陆科创板,上市后股价飙升。 根据《福布斯

    06-18

  • 收集!一汽、三一、方太等10家主要制造企业知识管理案例

    收集!一汽、三一、方太等10家主要制造企业知识管理案例

    党的二十大提出推动制造业高端化、智能化、绿色化发展,推动制造业深度融合数字经济和实体经济。 近日,全国常委会审议通过《制造业数字化转型行动方案》。 制造企业利用数字化转型升级赋能研发设计、生产加工、运营管理、销售服务等全产业链已成为必然趋势。 知识管理作为数

    06-18