首页 > 科技未来 > 内容

多轮对话推理速度提升46%，开源方案突破LLM多轮对话长度限制

发布于：2024-06-18 编辑：匿名来源：网络

在大型语言模型（LLM）的世界里，处理多轮对话一直是是一个挑战。

不久前，MIT 肖光轩等人推出了 Streaming LLM，可以在不牺牲推理速度和生成效果的情况下，实现多轮对话总计 10000 个代币的流式输入，推理速度提升了 22.2 倍。

但Streaming LLM是使用原生PyTorch实现的，还有优化的空间，无法满足多轮对话推理场景的低成本、低延迟、高吞吐量的要求。

Colossal-AI团队开源了SwiftInfer，并基于TensorRT实现了Streaming LLM，可将大模型推理性能进一步提升46%，为多轮对话推理提供高效可靠的实现方案。

开源地址：Introduction to Streaming LLM 大型语言模型能够记住的上下文长度直接影响ChatGPT等大型模型应用与用户之间的交互质量。

如何在多轮对话场景下保持LLM的生成质量，对推理系统提出了更高的要求，因为LLM在预训练时只能在有限注意力窗口的约束下进行训练。

常见的KV Cache机制可以节省模型计算时间，但在多轮对话的场景下，key和value的缓存会消耗大量内存，且在有限显存下上下文无法无限扩展。

同时，训练后的模型如果不进行二次微调，就无法很好地泛化到比训练序列长的文本，导致生成结果不佳。

多轮对话推理速度提升46%，开源方案突破LLM多轮对话长度限制

图源：Streaming LLM通过观察attention模块中Softmax的输出解决了这个问题，并发现了attention sink的现象。

我们知道，注意力机制为每个token分配一个注意力值，而文本的前几个token总是会被分配很多无用的注意力。

当我们使用基于滑动窗口的注意力机制时，一旦这些token被踢出窗口，模型的生成效果就会迅速崩溃。

只要将这些标记保留在窗口中，模型就可以稳定地生成高质量的文本。

与 Dense Attention、Window Attention 和 Sliding Window w/ Re-comLLMg 相比，Streaming LLM 基于注意力池的注意力机制不仅计算复杂，而且在速度和生成效果方面表现出色。

Streaming LLM无需重新训练模型，可直接兼容当前主流大语言模型，提升推理性能。

SwiftInfer：基于TensorRT的Streaming实现为了更好地将Streaming技术应用到落地场景中，Colossal-AI团队成功地将Streaming方法与TensorRT推理优化相结合，不仅继承了原有Streaming技术的所有优点，还还具有较高的运行效率。

使用TensorRT-LLM的API，我们也可以获得接近PyTorch API的模型编写体验。

基于TensorRT-LLM，我们重新实现了KV Cache机制和带有位置偏移的注意力模块。

如下图所示，假设我们的窗口大小为10个token，随着生成的token增加（黄色方块所示），我们踢掉KV缓存中的中间token，同时始终保留文本开头的几个token （由蓝色方块表示）。

由于黄色方块的位置会发生变化，因此我们在计算注意力时还需要重新注入位置信息。

需要注意的是，Streaming LLM不会直接增加模型可以访问的上下文窗口，而是可以在支持多轮流式会话的同时保证模型的生成效果。

大型模型的无限输入流推理加速了 46%。

Streaming LLM的原始版本可以可靠地实现超过10,000个令牌的流式输入，比计算量大的滑动窗口注意力机制实现了22.2倍的速度提升。

Colossal-AI团队发布的SwiftInfer可以进一步提升推理性能，带来推理吞吐速度额外提升46%，为大型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。

楷模。

TensorRT-LLM 团队同期也为 Streaming LLM 提供了类似的支持。

Colossal-AI社区动态 Colossal-AI目前已获得超过35,000个GitHub star，位居全球TOP，细分赛道位居全球第一。

它可以通过高效的多维并行、异构内存等来减少大型AI模型的尺寸、训练/微调/推理的开发和应用成本，提高模型任务性能并降低GPU需求。

Colossal-AI生态作为主流的开源AI大模型系统社区，在很多方面都保持着活跃和更新。

Colossal-LLaMA-2-13B 开源的Colossal-LLaMA-2-13B模型仅使用25B代币数据和1万元算力。

效果远远超过其他基于LLaMA-2的中文本地化模型。

即使与其他使用中文语料库、可能花费数千万元从头开始预训练的知名模型相比，Colossal-LLaMA-2 在相同规模下仍然表现良好。

通过构建更加完善的数据体系，13B版本在知识内容的掌握、对自然语言处理任务的理解、安全性、价值观等问题上都做出了质的提升。

Colossal-AI云平台 Colossal-AI云平台在集成Colossal-AI系统优化和廉价算力的基础上，于近期发布了AI云主机功能，方便用户以近乎裸机的方式开发和调试大型AI模型。

它还提供了多种使用方式，包括：Jupyter Notebook、ssh、服务本地端口映射和grafana监控，为用户提供全面便捷的开发体验。

同时，还为用户预先准备了包含ColossalAI代码库和运行环境的docker镜像。

用户无需进行环境和资源配置，即可一键运行ColossalAI代码库中的代码示例。

Colossal-AI开源地址：参考链接：雷锋网（公众号：雷锋网）雷锋网版权文章未经授权禁止转载。

详情请参见转载说明。

站长声明

标签：

上一篇：投资界独家- 《程一广播电台》全网粉丝超1200万，获得微影资本数千万Pre-A轮融资

下一篇：户外教育品牌“深圳儿童周末”完成百万级Pre-A轮融资

看新视野NO.06｜金沙江周奇：科技投资者要坚持长期潜伏，善于把握技术成熟度

程序员理工科出身的男人，从华为金牌销量到领跑和参与在跨国并购中，周奇突破进入风险投资领域，成为“最挑剔的科技投资者”。周奇的职业道路很好地贯彻了他的人生逻辑——“不变的是变化本身。无所畏惧地寻求变化。面对不确定性，在变化中寻找某些东西。 ”周奇所在的金沙

06-18
360金融上线360三大科技银行综合体已全部建立信用评分系统

近日，金融正式上线个人信用评分。该功能已在IOU APP上线。这是蚂蚁芝麻信用分和腾讯信用分发展的第二步。这是继微信支付积分之后，国内互联网+银行综合体建立的第三个信用积分体系。 6月5日，集团以12.8亿元收购天津津城银行股份有限公司（简称津城银行）30%股权，成为继

06-17
CES Asia展示5G互联、人工智能、增强现实与虚拟现实、汽车技术等领域最新成果

上海--(美国商业资讯)--2019亚洲消费电子展于6月13日盛大开幕，观众络绎不绝来自世界各地的众多企业展示了众多前沿创新技术，包括5G、人工智能（AI）、增强现实/虚拟现实（AR/VR）、汽车技术等领域的颠覆性创新。亚洲顶级科技盛会开幕当天，海信、华为、拜腾等企业高管发表主

06-06
唐智公测丨石头自洁扫拖机器人G10：养宠物家庭必备神器

本文由作者作为体验者@谭浩丹撰写，首发于唐智公测。当你点击文章的那一刻，我就知道精致的猪猪男孩女孩进来了，欢迎。前言：Stone公司一直在对机器人模块进行纵向研究。其研发设计能力毋庸置疑，在其他扫地机器人中具有很强的竞争力。而石头扫地自洁机器人G10，作为石头

06-21
CES 2020 前瞻：苹果重返，微软索尼激战游戏主机，Intel AMD 放大招

CES 2020前瞻：苹果回归，微软和索尼激烈争夺游戏机，英特尔和AMD扩大战略1月7日至1月10日，国际消费电子展（International Consumer Electronics Show）被誉为未来科技的风向标电子展（以下简称CES）将于拉斯维加斯开幕。从公开信息来看，今年的CES可能会和往年一样精彩。

06-18
新能源新材料，投资什么

1月9日至11日，“创投大会”在西安召开。本届大会以“走向现实、创新求强”为主题，邀请院士专家、投资机构、产业企业从宏观趋势、产业投资、企业发展等多个角度，呈现一场思想盛宴。本次《新能源新材料，向“新” 而行》圆桌对话由理和资本创始合伙人、总裁唐立新主持。

06-18
四维资本完成第六期基金募集，最终募集资金总额达2.1亿美元

四维资本私募股权投资基金-SEAVI Advent Private Equity（以下简称“四维资本”或“基金”） 4月30日，完成第六期基金（以下简称“新基金”）募集，并获得投资者认购承诺2.1亿美元。该基金在今年6月结束的第一轮融资中筹集了1.25亿美元，投资者来自高净值个人、企业机构和家

06-18
“认养一头牛”完成新一轮融资，德弘资本、KKR共同领投投融资

投资界（ID：pedaily）4月19日消息，认养一头牛乳业股份有限公司（以下简称认养一头牛）以“领养一头牛”）完成新一轮融资，本轮投资由德弘资本（DCP）和KKR联合领投。投资资金将主要用于支持奶牛认养，加快现代化牧场和智能工厂建设，引进澳大利亚优质奶牛，升级产业链，为

06-18
愿景资本设立总规模8亿元的新基金

据投资界4月28日消息，金风科技宣布，公司将担任愿景资本有限合伙人和基金管理人、普通合伙人共创资本管理有限公司（简称“愿景资本”）及其他有限合伙人中电投融和资产管理有限公司（简称“中电投融和资产”）、巴里贝瑞信托有限公司（简称“贝瑞信托”）、大家人寿保险股份

06-18
NASA“重返月球计划”细节揭晓！阿姆斯特朗之后，人类何时才能迈出下一个“大步”？

美国宇航员阿姆斯特朗迈出的一小步，是人类迈出的一大步。 2011年7月20日，人类首次踏上月球。 50年后，美国国家层面宣布，请求美国国家航空航天局（NASA）实施重返月球计划。它将在2019年运送两名宇航员（一名女性和一名男性）前往月球南极。在月球上建立永久基地，使人类

06-18
IDC：2021年云上数据量将超过传统数据中心 All in Cloud是趋势

据知名研究机构IDC预测，全球公有云上存储的数据量将超过传统数据中心到2021年，传统数据中心对企业数据的控制将被云打破，企业将进入All in Cloud时代。 IDC预测，全球数据量正在迎来爆发，从2018年的33ZB增长到2018年的ZB。推动这一增长的重要因素之一是云计算具有弹性扩

06-18
中升集团26日赴港上市开汽车经销商先河

中升集团26日在香港上市，成为首家开设汽车经销商的汽车经销商。股票26日挂牌，成为国内首家进入资本市场的汽车经销商。

06-18