首页 > 科技未来 > 内容

700亿参数LLaMA2训练加速195%,基础大模型最佳实践升级

发布于:2024-06-18 编辑:匿名 来源:网络

ChatGPT引发的大模型热潮愈演愈烈。

全球科技巨头和明星初创公司竞相入局,以人工智能大模型为核心创造竞争力和多样性。

满足商业使用要求。

其中,LLaMA系列模型凭借良好的基础能力和开放生态,积累了大量的用户和实际应用案例,成为无数开源模型后来者模仿和竞争的标杆。

然而,如何降低大型LLaMA2类模型的预训练成本,以及如何通过基于LLaMA2的持续预训练和微调,以低成本构建大型AI模型的实际应用,仍然是AIGC面临的关键瓶颈相关公司。

作为全球最大、最活跃的大型模型开发工具和社区,Colossal-AI再次迭代,提供开箱即用的LLaMA2训练、微调和推理解决方案,将1亿参数的训练加速%,并提供一站式云平台解决方案,大大降低大型模型开发和实施的成本。

开源地址:LLaMA2训练加速% Meta开源的LLaMA系列大模型进一步激发了构建类ChatGPT模型的热情,并由此衍生出很多项目和应用。

最新的7B~70B LLaMA2大模型进一步提升了语言模型的基础能力。

然而,由于LLaMA2的预训练预计大部分来自通用英语知识,仅通过微调可以提高和注入的领域知识和多语言能力相对有限。

此外,高质量的专业知识和数据集通常被认为是各个行业和公司的核心资产,只能以私有化的形式保存。

因此,LLaMA2系列大模型的低成本预训练/持续预训练/微调,结合高质量的私有化业务数据积累,帮助业务降本增效,是很多行业的迫切需求和瓶颈和企业。

但LLaMA2大模型只发布了原始模型权重和推理脚本,不支持训练/微调,也不提供数据集。

针对上述差距和需求,Colossal-AI开源了LLaMA2全流程解决方案,该方案具有高度可扩展性,支持70亿到1亿参数的模型,从8卡到8卡都能保持良好的性能。

当使用 8 张卡训练/微调 LLaMA2-7B 时,Colossal-AI 可以实现约 54% 的硬件利用率(MFU),处于行业领先水平。

对于预训练任务,以A40GB预训练的LLaMA2-70B为例,由于显存不足而无法启动DeepSpeed ZeRO3策略,只能通过速度衰减较大的ZeRO3-offload策略启动。

由于其出色的系统优化和可扩展性,Colossal-AI仍然可以保持良好的性能并将训练速度加快%。

Colossal-AI LLaMA-2训练/微调解决方案的高性能来自于新的异构内存管理系统Gemini和高性能算子(包括Flash Attention 2)等系统优化。

新的 Gemini 提供了高度可扩展、强大且易于使用的界面。

其Checkpoint格式与HuggingFace完全兼容,降低了使用和转换成本。

其分段、卸载等设置更加灵活易用,可以覆盖更多硬件配置下的LLaMA-2训练/微调任务。

只需几行代码即可使用: from colossalai.booster import Booster from colossalai.booster.plugin import GeminiPlugin plugin = GeminiPlugin() booster = Booster(plugin=plugin) model, optimizationr, train_dataloader, criteria = booster.boost( model、optimizer、train_dataloader、criteria)ShardFormer多维细粒度并行虽然对于主流硬件条件和大部分模型来说,Colossal-AI的新Gemini已经能够提供不错的性能。

但对于一些极端的硬件条件或特殊模型,可能仍然需要多维并行细粒度优化。

其他现有的解决方案通常需要分布式系统的资深专家大规模地手动重构和调优代码。

Colossal-AI 的 ShardFormer 只需几行代码即可提供开箱即用的多维并行性和算子优化功能。

它随时可用,并在单机或大规模集群上提供良好的性能。

从 colossalai.booster 导入 Booster 从 colossalai.booster.plugin 导入 HybridParallelPlugin 从 Transformers.models.llama 导入 LlamaForCausalLM,LlamaConfig 插件 = HybridParallelPlugin(tp_size=2,pp_size=2,num_microbatches=4,zero_stage=1) booster = Booster(plugin= plugin) model = LlamaForCausalLM(LlamaConfig()) model, optimizationr, train_dataloader, criteria = booster.boost(model, optimizationr, train_dataloader, criteria) Colossal-AI ShardFormer 支持 LLaMA1/2、BLOOM、OPT、T5、GPT-2、Mainstream开源模型,包括 BERT 和 GLM,也可以使用 Huggingface/transformers 模型直接导入。

Checkpoint 格式也与 HuggingFace 完全兼容。

与Megatron-LM等需要重写大量代码的解决方案相比,易用性大大提高。

对于并行策略,已经支持以下多种并行方式:张量并行、流水线并行、序列并行、数据并行、零数据并行等,并且可以通过简单的配置命令组合使用多种并行方式。

适应各种复杂的硬件环境/模型。

同时内置了各种高性能算子,省去了繁琐的兼容/配置过程。

其中包括: Flash Attention 2 Memory effective Attention (xformers) Fused Normalization Layer JIT kernels 云平台大模型一站式解决方案 为了进一步提升开发和部署效率,Colossal-AI团队还将上述系统优势与算力相结合提供Colossal-AI云平台,提供廉价算力和开箱即用的主流AI应用,包括大型对话模型、多模态模型、生物医学等,目前正在进行内部测试。

通过屏蔽底层分布式并行计算、内存、通信管理以及大型模型的优化,AI开发者可以继续专注于AI模型和算法设计,以更低的成本、更快的速度完成大型AI模型,帮助降低业务成本、提高效率。

700亿参数LLaMA2训练加速195%,基础大模型最佳实践升级

用户只需上传相关数据,无需代码即可训练个性化私有模型,并一键部署训练好的模型。

相关应用经过Colossal-AI团队精心优化。

得益于算法和系统的双面优化,可以大大降低模型训练和部署的成本。

Colossal-AI云平台:platform.luchentech.com Colossal-AI开源地址:雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。

详情请参见转载说明。

0人收藏分享: 相关文章LLaMA2云平台大模型ShardFormer 百度智能云:千帆大模型平台接入Llama2、等33个模型... 百度智能云:千帆大模型平台接入Llama2、等33个模型。

700亿参数LLaMA2训练加速195%,基础大模型最佳实践升级

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 会计及检测耗材需求大幅增长,大安基因2020年利润同比增长25倍

    会计及检测耗材需求大幅增长,大安基因2020年利润同比增长25倍

    大安基因(30.SZ)发布年度业绩报告。 全年营业收入53.45亿元,同比增长0.7%;归属于上市公司股东的净利润24.33亿元,同比增长.66%;基本每股收益为2.77元。 听,中小企业反馈平台。 倾听用户需求,倾听创业者声音,解决中小企业痛点。 点击立即参与调查并获得礼物。

    06-18

  • 中国汽车工业协会:1-3月中国整车出口同比增长87.9%

    中国汽车工业协会:1-3月中国整车出口同比增长87.9%

    据中国汽车工业统计海关总署数据,今年1-3月中国累计出口整车67.6万辆,同比增长57.8%;整车出口额5000万美元,同比增长87.9%。 我国汽车主要出口品种中,乘用车出口量排名第一,纯电动机动车排名第三、第四,轿车和卡车分别排名第三、第四。 与去年同期相比,上述四个品类均

    06-18

  • 多么完美的搭配啊!当超薄的OPPO R5遇见更小、更聪明的VOOC闪充

    多么完美的搭配啊!当超薄的OPPO R5遇见更小、更聪明的VOOC闪充

    2019年6月,OPPO Finder以其当时最薄的6.65mm机身厚度深受用户青睐。 2019年10月,OPPO发布R5,薄至4.85mm,再次引领手机行业超薄设计潮流。 超薄的机身设计在视觉上轻松赢得用户的青睐。 但为了满足用户的需求,手机必须要做的轻薄,同时还要兼顾手感、机身强度、硬件配置、

    06-18

  • 马斯克:为什么要用iPhone来连接人脑?

    马斯克:为什么要用iPhone来连接人脑?

    硅谷钢铁侠马斯克绝对是世界上最好的实干家。 他有无穷无尽的疯狂想法,例如使用可回收火箭探索火星和建造真空管。 超级高铁,人们总是无条件相信:毕竟马斯克说到做到。 2009年,精力充沛的马斯克再次出发创业。 该公司被命名为Neuralink。 顾名思义,他想开发一种脑机接口,

    06-17

  • “海螺之家”宣布获得近千万元天使轮融资,用于二手房升级改造

    “海螺之家”宣布获得近千万元天使轮融资,用于二手房升级改造

    据投资界9月7日消息,近日,二手房“海螺之家”房屋升级改造服务商,宣布获得近千万元天使融资。 本轮融资由达泰资本领投,猎鹰创投、相泰投资跟投。 今年5月,该公司获得相泰种子轮融资。   海螺家园是一家二手房升级改造服务商。 通过前端装修装修流程,为购房者提供“所

    06-18

  • 依托回收废旧电池材料,“西安科技”获数亿元融资

    依托回收废旧电池材料,“西安科技”获数亿元融资

    锂电池回收领域龙头企业“西安科技”已完成数亿元融资。 本轮融资由经纬中国领投,上汽恒旭三峡绿色产业基金、中金传化产业基金、招商证券、江北嘴基金等多家知名机构和产业资本跟投,云秀资本服务作为独家贡献者。 本轮融资后,西安科技将加大新能源锂电池材料资源回收技术

    06-18

  • 新能源新材料,投资什么

    新能源新材料,投资什么

    1月9日至11日,“创投大会”在西安召开。 本届大会以“走向现实、创新求强”为主题,邀请院士专家、投资机构、产业企业从宏观趋势、产业投资、企业发展等多个角度,呈现一场思想盛宴。 本次《 新能源新材料,向“新” 而行 》圆桌对话由理和资本创始合伙人、总裁唐立新主持。

    06-18

  • 金宏气体成功试制集成电路用电子级正硅酸乙酯

    金宏气体成功试制集成电路用电子级正硅酸乙酯

    近日,金宏气体总部成功试制集成电路用电子级正硅酸乙酯(TEOS)。 这一突破标志着我公司在解决行业“卡脖子”问题上又迈出了坚实的一步,近期将大规模市场化生产TEOS,用国产替代进口集成电路电子材料,实现自主化。 在可控等方面作出新贡献。 金虹气体集成电路用电子级原硅

    06-06

  • 医疗大数据公司“柯林布瑞”获1亿元B轮融资

    医疗大数据公司“柯林布瑞”获1亿元B轮融资

    据投资界9月25日消息,据36氪报道,医疗大数据公司柯林布瑞(ClinBrain)已完成1亿元B轮融资融资(人民币)。 本轮投资由智林资本领投,前海母基金、觅方资本、朗城资本共同参与投资。 老股东广润资本继续投资。 据悉,完成本轮融资后,柯林布瑞将进一步加大研发投入,进一步

    06-18

  • 【主题】AI如何应用于数字营销?

    【主题】AI如何应用于数字营销?

    数字营销是当今商业环境中不可或缺的一部分,而人工智能是数字营销的重要驱动力。 它为营销策略提供强大的工具和资源,从而帮助企业更好地了解消费者的需求和行为,优化营销效果,实现营销目标。 那么,在数字营销中,我们如何利用AI工具来创作和分发更有针对性的营销内容、优

    06-17

  • 湃道智智能完成百度风投数千万元Pre-A轮融资

    湃道智智能完成百度风投数千万元Pre-A轮融资

    据投资界7月28日消息,据36氪报道,湃道智智能正式宣布获得数千万元融资获得百度Pre-A轮融资。 风险投资(BV)。 此前,湃道智智能还获得了启明创投的天使轮融资。 耀明智智能成立于2016年,主要聚焦石油、化工等传统工业市场,为大型企业提供工业安全领域的AI+RPA解决方案。

    06-18

  • 中国电信创业基金成立,规模50亿

    中国电信创业基金成立,规模50亿

    据投资界(ID:pedaily)4月7日消息,近日,中国长城科技集团有限公司(简称“中国长城”) )发布公告称,中国长城拟与双方共同设立中国电子创新产业有限合伙企业(暂名,简称“中国电子创新”)。 投资者包括中国长城、中国软件技术服务有限公司、华大半导体有限公司、中电

    06-18