首页 > 科技未来 > 内容

多轮对话推理速度提升46%,开源方案突破LLM多轮对话长度限制

发布于:2024-06-18 编辑:匿名 来源:网络

在大型语言模型(LLM)的世界里,处理多轮对话一直是是一个挑战。

不久前,MIT 肖光轩等人推出了 Streaming LLM,可以在不牺牲推理速度和生成效果的情况下,实现多轮对话总计 10000 个代币的流式输入,推理速度提升了 22.2 倍。

但Streaming LLM是使用原生PyTorch实现的,还有优化的空间,无法满足多轮对话推理场景的低成本、低延迟、高吞吐量的要求。

Colossal-AI团队开源了SwiftInfer,并基于TensorRT实现了Streaming LLM,可将大模型推理性能进一步提升46%,为多轮对话推理提供高效可靠的实现方案。

开源地址:Introduction to Streaming LLM 大型语言模型能够记住的上下文长度直接影响ChatGPT等大型模型应用与用户之间的交互质量。

如何在多轮对话场景下保持LLM的生成质量,对推理系统提出了更高的要求,因为LLM在预训练时只能在有限注意力窗口的约束下进行训练。

常见的KV Cache机制可以节省模型计算时间,但在多轮对话的场景下,key和value的缓存会消耗大量内存,且在有限显存下上下文无法无限扩展。

同时,训练后的模型如果不进行二次微调,就无法很好地泛化到比训练序列长的文本,导致生成结果不佳。

多轮对话推理速度提升46%,开源方案突破LLM多轮对话长度限制

图源:Streaming LLM通过观察attention模块中Softmax的输出解决了这个问题,并发现了attention sink的现象。

我们知道,注意力机制为每个token分配一个注意力值,而文本的前几个token总是会被分配很多无用的注意力。

当我们使用基于滑动窗口的注意力机制时,一旦这些token被踢出窗口,模型的生成效果就会迅速崩溃。

只要将这些标记保留在窗口中,模型就可以稳定地生成高质量的文本。

与 Dense Attention、Window Attention 和 Sliding Window w/ Re-comLLMg 相比,Streaming LLM 基于注意力池的注意力机制不仅计算复杂,而且在速度和生成效果方面表现出色。

Streaming LLM无需重新训练模型,可直接兼容当前主流大语言模型,提升推理性能。

SwiftInfer:基于TensorRT的Streaming实现为了更好地将Streaming技术应用到落地场景中,Colossal-AI团队成功地将Streaming方法与TensorRT推理优化相结合,不仅继承了原有Streaming技术的所有优点,还还具有较高的运行效率。

使用TensorRT-LLM的API,我们也可以获得接近PyTorch API的模型编写体验。

基于TensorRT-LLM,我们重新实现了KV Cache机制和带有位置偏移的注意力模块。

如下图所示,假设我们的窗口大小为10个token,随着生成的token增加(黄色方块所示),我们踢掉KV缓存中的中间token,同时始终保留文本开头的几个token (由蓝色方块表示)。

由于黄色方块的位置会发生变化,因此我们在计算注意力时还需要重新注入位置信息。

需要注意的是,Streaming LLM不会直接增加模型可以访问的上下文窗口,而是可以在支持多轮流式会话的同时保证模型的生成效果。

大型模型的无限输入流推理加速了 46%。

Streaming LLM的原始版本可以可靠地实现超过10,000个令牌的流式输入,比计算量大的滑动窗口注意力机制实现了22.2倍的速度提升。

Colossal-AI团队发布的SwiftInfer可以进一步提升推理性能,带来推理吞吐速度额外提升46%,为大型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。

楷模。

TensorRT-LLM 团队同期也为 Streaming LLM 提供了类似的支持。

Colossal-AI社区动态 Colossal-AI目前已获得超过35,000个GitHub star,位居全球TOP,细分赛道位居全球第一。

它可以通过高效的多维并行、异构内存等来减少大型AI模型的尺寸、训练/微调/推理的开发和应用成本,提高模型任务性能并降低GPU需求。

Colossal-AI生态作为主流的开源AI大模型系统社区,在很多方面都保持着活跃和更新。

Colossal-LLaMA-2-13B 开源的Colossal-LLaMA-2-13B模型仅使用25B代币数据和1万元算力。

效果远远超过其他基于LLaMA-2的中文本地化模型。

即使与其他使用中文语料库、可能花费数千万元从头开始预训练的知名模型相比,Colossal-LLaMA-2 在相同规模下仍然表现良好。

通过构建更加完善的数据体系,13B版本在知识内容的掌握、对自然语言处理任务的理解、安全性、价值观等问题上都做出了质的提升。

Colossal-AI云平台 Colossal-AI云平台在集成Colossal-AI系统优化和廉价算力的基础上,于近期发布了AI云主机功能,方便用户以近乎裸机的方式开发和调试大型AI模型。

它还提供了多种使用方式,包括:Jupyter Notebook、ssh、服务本地端口映射和grafana监控,为用户提供全面便捷的开发体验。

同时,还为用户预先准备了包含ColossalAI代码库和运行环境的docker镜像。

用户无需进行环境和资源配置,即可一键运行ColossalAI代码库中的代码示例。

Colossal-AI开源地址:参考链接:雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。

详情请参见转载说明。

多轮对话推理速度提升46%,开源方案突破LLM多轮对话长度限制

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 看新视野NO.06|金沙江周奇:科技投资者要坚持长期潜伏,善于把握技术成熟度

    看新视野NO.06|金沙江周奇:科技投资者要坚持长期潜伏,善于把握技术成熟度

    程序员理工科出身的男人,从华为金牌销量到领跑和参与在跨国并购中,周奇突破进入风险投资领域,成为“最挑剔的科技投资者”。 周奇的职业道路很好地贯彻了他的人生逻辑——“不变的是变化本身。 无所畏惧地寻求变化。 面对不确定性,在变化中寻找某些东西。 ”周奇所在的金沙

    06-18

  • 360金融上线360三大科技银行综合体已全部建立信用评分系统

    360金融上线360三大科技银行综合体已全部建立信用评分系统

    近日,金融正式上线个人信用评分。 该功能已在IOU APP上线。 这是蚂蚁芝麻信用分和腾讯信用分发展的第二步。 这是继微信支付积分之后,国内互联网+银行综合体建立的第三个信用积分体系。 6月5日,集团以12.8亿元收购天津津城银行股份有限公司(简称津城银行)30%股权,成为继

    06-17

  • CES Asia展示5G互联、人工智能、增强现实与虚拟现实、汽车技术等领域最新成果

    CES Asia展示5G互联、人工智能、增强现实与虚拟现实、汽车技术等领域最新成果

    上海--(美国商业资讯)--2019亚洲消费电子展于6月13日盛大开幕,观众络绎不绝来自世界各地的众多企业展示了众多前沿创新技术,包括5G、人工智能(AI)、增强现实/虚拟现实(AR/VR)、汽车技术等领域的颠覆性创新。 亚洲顶级科技盛会开幕当天,海信、华为、拜腾等企业高管发表主

    06-06

  • 唐智公测丨石头自洁扫拖机器人G10:养宠物家庭必备神器

    唐智公测丨石头自洁扫拖机器人G10:养宠物家庭必备神器

    本文由作者作为体验者@谭浩丹撰写,首发于唐智公测。 当你点击文章的那一刻,我就知道精致的猪猪男孩女孩进来了,欢迎。 前言:Stone公司一直在对机器人模块进行纵向研究。 其研发设计能力毋庸置疑,在其他扫地机器人中具有很强的竞争力。 而石头扫地自洁机器人G10,作为石头

    06-21

  • CES  2020 前瞻:苹果重返,微软索尼激战游戏主机,Intel AMD 放大招

    CES 2020 前瞻:苹果重返,微软索尼激战游戏主机,Intel AMD 放大招

    CES 2020前瞻:苹果回归,微软和索尼激烈争夺游戏机,英特尔和AMD扩大战略1月7日至1月10日,国际消费电子展(International Consumer Electronics Show)被誉为未来科技的风向标电子展(以下简称CES)将于拉斯维加斯开幕。 从公开信息来看,今年的CES可能会和往年一样精彩。

    06-18

  • 新能源新材料,投资什么

    新能源新材料,投资什么

    1月9日至11日,“创投大会”在西安召开。 本届大会以“走向现实、创新求强”为主题,邀请院士专家、投资机构、产业企业从宏观趋势、产业投资、企业发展等多个角度,呈现一场思想盛宴。 本次《 新能源新材料,向“新” 而行 》圆桌对话由理和资本创始合伙人、总裁唐立新主持。

    06-18

  • 四维资本完成第六期基金募集,最终募集资金总额达2.1亿美元

    四维资本完成第六期基金募集,最终募集资金总额达2.1亿美元

    四维资本私募股权投资基金-SEAVI Advent Private Equity(以下简称“四维资本”或“基金”) 4月30日,完成第六期基金(以下简称“新基金”)募集,并获得投资者认购承诺2.1亿美元。 该基金在今年6月结束的第一轮融资中筹集了1.25亿美元,投资者来自高净值个人、企业机构和家

    06-18

  • “认养一头牛”完成新一轮融资,德弘资本、KKR共同领投投融资

    “认养一头牛”完成新一轮融资,德弘资本、KKR共同领投投融资

    投资界(ID:pedaily)4月19日消息,认养一头牛乳业股份有限公司(以下简称认养一头牛)以“领养一头牛”)完成新一轮融资,本轮投资由德弘资本(DCP)和KKR联合领投。 投资资金将主要用于支持奶牛认养,加快现代化牧场和智能工厂建设,引进澳大利亚优质奶牛,升级产业链,为

    06-18

  • 愿景资本设立总规模8亿元的新基金

    愿景资本设立总规模8亿元的新基金

    据投资界4月28日消息,金风科技宣布,公司将担任愿景资本有限合伙人和基金管理人、普通合伙人共创资本管理有限公司(简称“愿景资本”)及其他有限合伙人中电投融和资产管理有限公司(简称“中电投融和资产”)、巴里贝瑞信托有限公司(简称“贝瑞信托”)、大家人寿保险股份

    06-18

  • NASA“重返月球计划”细节揭晓!阿姆斯特朗之后,人类何时才能迈出下一个“大步”?

    NASA“重返月球计划”细节揭晓!阿姆斯特朗之后,人类何时才能迈出下一个“大步”?

    美国宇航员阿姆斯特朗迈出的一小步,是人类迈出的一大步。 2011年7月20日,人类首次踏上月球。 50年后,美国国家层面宣布,请求美国国家航空航天局(NASA)实施重返月球计划。 它将在2019年运送两名宇航员(一名女性和一名男性)前往月球南极。 在月球上建立永久基地,使人类

    06-18

  • IDC:2021年云上数据量将超过传统数据中心 All in Cloud是趋势

    IDC:2021年云上数据量将超过传统数据中心 All in Cloud是趋势

    据知名研究机构IDC预测,全球公有云上存储的数据量将超过传统数据中心到2021年,传统数据中心对企业数据的控制将被云打破,企业将进入All in Cloud时代。 IDC预测,全球数据量正在迎来爆发,从2018年的33ZB增长到2018年的ZB。 推动这一增长的重要因素之一是云计算具有弹性扩

    06-18

  • 中升集团26日赴港上市 开汽车经销商先河

    中升集团26日赴港上市 开汽车经销商先河

    中升集团26日在香港上市,成为首家开设汽车经销商的汽车经销商。 股票26日挂牌,成为国内首家进入资本市场的汽车经销商。

    06-18