翼猫科技获数千万元A轮融资,量子资本领投
06-18
ChatGPT引发的大模型热潮愈演愈烈。
全球科技巨头和明星初创公司竞相入局,以人工智能大模型为核心创造竞争力和多样性。
满足商业使用要求。
其中,LLaMA系列模型凭借良好的基础能力和开放生态,积累了大量的用户和实际应用案例,成为无数开源模型后来者模仿和竞争的标杆。
然而,如何降低大型LLaMA2类模型的预训练成本,以及如何通过基于LLaMA2的持续预训练和微调,以低成本构建大型AI模型的实际应用,仍然是AIGC面临的关键瓶颈相关公司。
作为全球最大、最活跃的大型模型开发工具和社区,Colossal-AI再次迭代,提供开箱即用的LLaMA2训练、微调和推理解决方案,将1亿参数的训练加速%,并提供一站式云平台解决方案,大大降低大型模型开发和实施的成本。
开源地址:LLaMA2训练加速% Meta开源的LLaMA系列大模型进一步激发了构建类ChatGPT模型的热情,并由此衍生出很多项目和应用。
最新的7B~70B LLaMA2大模型进一步提升了语言模型的基础能力。
然而,由于LLaMA2的预训练预计大部分来自通用英语知识,仅通过微调可以提高和注入的领域知识和多语言能力相对有限。
此外,高质量的专业知识和数据集通常被认为是各个行业和公司的核心资产,只能以私有化的形式保存。
因此,LLaMA2系列大模型的低成本预训练/持续预训练/微调,结合高质量的私有化业务数据积累,帮助业务降本增效,是很多行业的迫切需求和瓶颈和企业。
但LLaMA2大模型只发布了原始模型权重和推理脚本,不支持训练/微调,也不提供数据集。
针对上述差距和需求,Colossal-AI开源了LLaMA2全流程解决方案,该方案具有高度可扩展性,支持70亿到1亿参数的模型,从8卡到8卡都能保持良好的性能。
当使用 8 张卡训练/微调 LLaMA2-7B 时,Colossal-AI 可以实现约 54% 的硬件利用率(MFU),处于行业领先水平。
对于预训练任务,以A40GB预训练的LLaMA2-70B为例,由于显存不足而无法启动DeepSpeed ZeRO3策略,只能通过速度衰减较大的ZeRO3-offload策略启动。
由于其出色的系统优化和可扩展性,Colossal-AI仍然可以保持良好的性能并将训练速度加快%。
Colossal-AI LLaMA-2训练/微调解决方案的高性能来自于新的异构内存管理系统Gemini和高性能算子(包括Flash Attention 2)等系统优化。
新的 Gemini 提供了高度可扩展、强大且易于使用的界面。
其Checkpoint格式与HuggingFace完全兼容,降低了使用和转换成本。
其分段、卸载等设置更加灵活易用,可以覆盖更多硬件配置下的LLaMA-2训练/微调任务。
只需几行代码即可使用: from colossalai.booster import Booster from colossalai.booster.plugin import GeminiPlugin plugin = GeminiPlugin() booster = Booster(plugin=plugin) model, optimizationr, train_dataloader, criteria = booster.boost( model、optimizer、train_dataloader、criteria)ShardFormer多维细粒度并行虽然对于主流硬件条件和大部分模型来说,Colossal-AI的新Gemini已经能够提供不错的性能。
但对于一些极端的硬件条件或特殊模型,可能仍然需要多维并行细粒度优化。
其他现有的解决方案通常需要分布式系统的资深专家大规模地手动重构和调优代码。
Colossal-AI 的 ShardFormer 只需几行代码即可提供开箱即用的多维并行性和算子优化功能。
它随时可用,并在单机或大规模集群上提供良好的性能。
从 colossalai.booster 导入 Booster 从 colossalai.booster.plugin 导入 HybridParallelPlugin 从 Transformers.models.llama 导入 LlamaForCausalLM,LlamaConfig 插件 = HybridParallelPlugin(tp_size=2,pp_size=2,num_microbatches=4,zero_stage=1) booster = Booster(plugin= plugin) model = LlamaForCausalLM(LlamaConfig()) model, optimizationr, train_dataloader, criteria = booster.boost(model, optimizationr, train_dataloader, criteria) Colossal-AI ShardFormer 支持 LLaMA1/2、BLOOM、OPT、T5、GPT-2、Mainstream开源模型,包括 BERT 和 GLM,也可以使用 Huggingface/transformers 模型直接导入。
Checkpoint 格式也与 HuggingFace 完全兼容。
与Megatron-LM等需要重写大量代码的解决方案相比,易用性大大提高。
对于并行策略,已经支持以下多种并行方式:张量并行、流水线并行、序列并行、数据并行、零数据并行等,并且可以通过简单的配置命令组合使用多种并行方式。
适应各种复杂的硬件环境/模型。
同时内置了各种高性能算子,省去了繁琐的兼容/配置过程。
其中包括: Flash Attention 2 Memory effective Attention (xformers) Fused Normalization Layer JIT kernels 云平台大模型一站式解决方案 为了进一步提升开发和部署效率,Colossal-AI团队还将上述系统优势与算力相结合提供Colossal-AI云平台,提供廉价算力和开箱即用的主流AI应用,包括大型对话模型、多模态模型、生物医学等,目前正在进行内部测试。
通过屏蔽底层分布式并行计算、内存、通信管理以及大型模型的优化,AI开发者可以继续专注于AI模型和算法设计,以更低的成本、更快的速度完成大型AI模型,帮助降低业务成本、提高效率。

用户只需上传相关数据,无需代码即可训练个性化私有模型,并一键部署训练好的模型。
相关应用经过Colossal-AI团队精心优化。
得益于算法和系统的双面优化,可以大大降低模型训练和部署的成本。
Colossal-AI云平台:platform.luchentech.com Colossal-AI开源地址:雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。
详情请参见转载说明。
0人收藏分享: 相关文章LLaMA2云平台大模型ShardFormer 百度智能云:千帆大模型平台接入Llama2、等33个模型... 百度智能云:千帆大模型平台接入Llama2、等33个模型。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-08
06-17
06-18
06-18
06-18
06-17
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态