看新视野NO.06|金沙江周奇:科技投资者要坚持长期潜伏,善于把握技术成熟度
06-18
在大型语言模型(LLM)的世界里,处理多轮对话一直是是一个挑战。
不久前,MIT 肖光轩等人推出了 Streaming LLM,可以在不牺牲推理速度和生成效果的情况下,实现多轮对话总计 10000 个代币的流式输入,推理速度提升了 22.2 倍。
但Streaming LLM是使用原生PyTorch实现的,还有优化的空间,无法满足多轮对话推理场景的低成本、低延迟、高吞吐量的要求。
Colossal-AI团队开源了SwiftInfer,并基于TensorRT实现了Streaming LLM,可将大模型推理性能进一步提升46%,为多轮对话推理提供高效可靠的实现方案。
开源地址:Introduction to Streaming LLM 大型语言模型能够记住的上下文长度直接影响ChatGPT等大型模型应用与用户之间的交互质量。
如何在多轮对话场景下保持LLM的生成质量,对推理系统提出了更高的要求,因为LLM在预训练时只能在有限注意力窗口的约束下进行训练。
常见的KV Cache机制可以节省模型计算时间,但在多轮对话的场景下,key和value的缓存会消耗大量内存,且在有限显存下上下文无法无限扩展。
同时,训练后的模型如果不进行二次微调,就无法很好地泛化到比训练序列长的文本,导致生成结果不佳。

图源:Streaming LLM通过观察attention模块中Softmax的输出解决了这个问题,并发现了attention sink的现象。
我们知道,注意力机制为每个token分配一个注意力值,而文本的前几个token总是会被分配很多无用的注意力。
当我们使用基于滑动窗口的注意力机制时,一旦这些token被踢出窗口,模型的生成效果就会迅速崩溃。
只要将这些标记保留在窗口中,模型就可以稳定地生成高质量的文本。
与 Dense Attention、Window Attention 和 Sliding Window w/ Re-comLLMg 相比,Streaming LLM 基于注意力池的注意力机制不仅计算复杂,而且在速度和生成效果方面表现出色。
Streaming LLM无需重新训练模型,可直接兼容当前主流大语言模型,提升推理性能。
SwiftInfer:基于TensorRT的Streaming实现为了更好地将Streaming技术应用到落地场景中,Colossal-AI团队成功地将Streaming方法与TensorRT推理优化相结合,不仅继承了原有Streaming技术的所有优点,还还具有较高的运行效率。
使用TensorRT-LLM的API,我们也可以获得接近PyTorch API的模型编写体验。
基于TensorRT-LLM,我们重新实现了KV Cache机制和带有位置偏移的注意力模块。
如下图所示,假设我们的窗口大小为10个token,随着生成的token增加(黄色方块所示),我们踢掉KV缓存中的中间token,同时始终保留文本开头的几个token (由蓝色方块表示)。
由于黄色方块的位置会发生变化,因此我们在计算注意力时还需要重新注入位置信息。
需要注意的是,Streaming LLM不会直接增加模型可以访问的上下文窗口,而是可以在支持多轮流式会话的同时保证模型的生成效果。
大型模型的无限输入流推理加速了 46%。
Streaming LLM的原始版本可以可靠地实现超过10,000个令牌的流式输入,比计算量大的滑动窗口注意力机制实现了22.2倍的速度提升。
Colossal-AI团队发布的SwiftInfer可以进一步提升推理性能,带来推理吞吐速度额外提升46%,为大型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。
楷模。
TensorRT-LLM 团队同期也为 Streaming LLM 提供了类似的支持。
Colossal-AI社区动态 Colossal-AI目前已获得超过35,000个GitHub star,位居全球TOP,细分赛道位居全球第一。
它可以通过高效的多维并行、异构内存等来减少大型AI模型的尺寸、训练/微调/推理的开发和应用成本,提高模型任务性能并降低GPU需求。
Colossal-AI生态作为主流的开源AI大模型系统社区,在很多方面都保持着活跃和更新。
Colossal-LLaMA-2-13B 开源的Colossal-LLaMA-2-13B模型仅使用25B代币数据和1万元算力。
效果远远超过其他基于LLaMA-2的中文本地化模型。
即使与其他使用中文语料库、可能花费数千万元从头开始预训练的知名模型相比,Colossal-LLaMA-2 在相同规模下仍然表现良好。
通过构建更加完善的数据体系,13B版本在知识内容的掌握、对自然语言处理任务的理解、安全性、价值观等问题上都做出了质的提升。
Colossal-AI云平台 Colossal-AI云平台在集成Colossal-AI系统优化和廉价算力的基础上,于近期发布了AI云主机功能,方便用户以近乎裸机的方式开发和调试大型AI模型。
它还提供了多种使用方式,包括:Jupyter Notebook、ssh、服务本地端口映射和grafana监控,为用户提供全面便捷的开发体验。
同时,还为用户预先准备了包含ColossalAI代码库和运行环境的docker镜像。
用户无需进行环境和资源配置,即可一键运行ColossalAI代码库中的代码示例。
Colossal-AI开源地址:参考链接:雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。
详情请参见转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态