首页 > 科技未来 > 内容

多轮对话推理速度提升46%,开源方案突破LLM多轮对话长度限制

发布于:2024-06-18 编辑:匿名 来源:网络

在大型语言模型(LLM)的世界里,处理多轮对话一直是是一个挑战。

不久前,MIT 肖光轩等人推出了 Streaming LLM,可以在不牺牲推理速度和生成效果的情况下,实现多轮对话总计 10000 个代币的流式输入,推理速度提升了 22.2 倍。

但Streaming LLM是使用原生PyTorch实现的,还有优化的空间,无法满足多轮对话推理场景的低成本、低延迟、高吞吐量的要求。

Colossal-AI团队开源了SwiftInfer,并基于TensorRT实现了Streaming LLM,可将大模型推理性能进一步提升46%,为多轮对话推理提供高效可靠的实现方案。

开源地址:Introduction to Streaming LLM 大型语言模型能够记住的上下文长度直接影响ChatGPT等大型模型应用与用户之间的交互质量。

如何在多轮对话场景下保持LLM的生成质量,对推理系统提出了更高的要求,因为LLM在预训练时只能在有限注意力窗口的约束下进行训练。

常见的KV Cache机制可以节省模型计算时间,但在多轮对话的场景下,key和value的缓存会消耗大量内存,且在有限显存下上下文无法无限扩展。

同时,训练后的模型如果不进行二次微调,就无法很好地泛化到比训练序列长的文本,导致生成结果不佳。

多轮对话推理速度提升46%,开源方案突破LLM多轮对话长度限制

图源:Streaming LLM通过观察attention模块中Softmax的输出解决了这个问题,并发现了attention sink的现象。

我们知道,注意力机制为每个token分配一个注意力值,而文本的前几个token总是会被分配很多无用的注意力。

当我们使用基于滑动窗口的注意力机制时,一旦这些token被踢出窗口,模型的生成效果就会迅速崩溃。

只要将这些标记保留在窗口中,模型就可以稳定地生成高质量的文本。

与 Dense Attention、Window Attention 和 Sliding Window w/ Re-comLLMg 相比,Streaming LLM 基于注意力池的注意力机制不仅计算复杂,而且在速度和生成效果方面表现出色。

Streaming LLM无需重新训练模型,可直接兼容当前主流大语言模型,提升推理性能。

SwiftInfer:基于TensorRT的Streaming实现为了更好地将Streaming技术应用到落地场景中,Colossal-AI团队成功地将Streaming方法与TensorRT推理优化相结合,不仅继承了原有Streaming技术的所有优点,还还具有较高的运行效率。

使用TensorRT-LLM的API,我们也可以获得接近PyTorch API的模型编写体验。

基于TensorRT-LLM,我们重新实现了KV Cache机制和带有位置偏移的注意力模块。

如下图所示,假设我们的窗口大小为10个token,随着生成的token增加(黄色方块所示),我们踢掉KV缓存中的中间token,同时始终保留文本开头的几个token (由蓝色方块表示)。

由于黄色方块的位置会发生变化,因此我们在计算注意力时还需要重新注入位置信息。

需要注意的是,Streaming LLM不会直接增加模型可以访问的上下文窗口,而是可以在支持多轮流式会话的同时保证模型的生成效果。

大型模型的无限输入流推理加速了 46%。

Streaming LLM的原始版本可以可靠地实现超过10,000个令牌的流式输入,比计算量大的滑动窗口注意力机制实现了22.2倍的速度提升。

Colossal-AI团队发布的SwiftInfer可以进一步提升推理性能,带来推理吞吐速度额外提升46%,为大型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。

楷模。

TensorRT-LLM 团队同期也为 Streaming LLM 提供了类似的支持。

Colossal-AI社区动态 Colossal-AI目前已获得超过35,000个GitHub star,位居全球TOP,细分赛道位居全球第一。

它可以通过高效的多维并行、异构内存等来减少大型AI模型的尺寸、训练/微调/推理的开发和应用成本,提高模型任务性能并降低GPU需求。

Colossal-AI生态作为主流的开源AI大模型系统社区,在很多方面都保持着活跃和更新。

Colossal-LLaMA-2-13B 开源的Colossal-LLaMA-2-13B模型仅使用25B代币数据和1万元算力。

效果远远超过其他基于LLaMA-2的中文本地化模型。

即使与其他使用中文语料库、可能花费数千万元从头开始预训练的知名模型相比,Colossal-LLaMA-2 在相同规模下仍然表现良好。

通过构建更加完善的数据体系,13B版本在知识内容的掌握、对自然语言处理任务的理解、安全性、价值观等问题上都做出了质的提升。

Colossal-AI云平台 Colossal-AI云平台在集成Colossal-AI系统优化和廉价算力的基础上,于近期发布了AI云主机功能,方便用户以近乎裸机的方式开发和调试大型AI模型。

它还提供了多种使用方式,包括:Jupyter Notebook、ssh、服务本地端口映射和grafana监控,为用户提供全面便捷的开发体验。

同时,还为用户预先准备了包含ColossalAI代码库和运行环境的docker镜像。

用户无需进行环境和资源配置,即可一键运行ColossalAI代码库中的代码示例。

Colossal-AI开源地址:参考链接:雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。

详情请参见转载说明。

多轮对话推理速度提升46%,开源方案突破LLM多轮对话长度限制

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 威海经开区设立5亿元政府引导基金

    威海经开区设立5亿元政府引导基金

    投资界(ID:pedaily)8月24日消息,8月23日,经开区举行政府引导基金投资签约仪式。 经济发展控股集团与威海杰诺曼自动化有限公司、威海艾迪克电子科技有限公司、山东光瑞电力科技有限公司等十家企业正式签约。 10家企业将获得总计1万元以上的政府引导资金。 此次签约,标志

    06-18

  • 智能客服在银行数字化转型中的关键作用

    智能客服在银行数字化转型中的关键作用

    .wp-block-column h3{margin-left:0} 随着技术的不断发展和消费者需求的日益多元化,银行业正在经历深刻的变革数字化转型。 在这一转型过程中,智能客服系统作为银行与客户之间的重要纽带,正逐渐展现出其不可替代的价值。 银行数字化转型的必要性:数字化时代,客户对银行服

    06-17

  • 韩媒:三星电子社长访美寻求手机AP供应被拒绝,反映出购买力下降

    韩媒:三星电子社长访美寻求手机AP供应被拒绝,反映出购买力下降

    消息人士透露,三星电子社长兼移动通信部门负责人卢泰文两次前往美国今年与主要零部件制造商见面。 确保智能手机生产所需的应用处理器的额外供应被拒绝。 这不仅显示了当前全球芯片短缺的严重性,也显示了三星移动在全球智能手机供应链中购买力的减弱。 据 TheElec 报道,该

    06-08

  • 无邦完成数千万元A轮融资,打造舞蹈潮流综合体

    无邦完成数千万元A轮融资,打造舞蹈潮流综合体

    据投资界4月16日消息,近日,无邦宣布完成数千万元A轮融资。 投资方为沃府资本、浙江文化产业成长基金。    据悉,本轮融资将用于加强品牌建设、生产优质IP内容、拓展舞蹈相关产业。   舞邦成立于2007年,是一家专注于城市舞蹈文化推广与教学的公司。 城市舞蹈兴起于美国

    06-18

  • 苏州将迎来超千亿资金中的资金

    苏州将迎来超千亿资金中的资金

    投资界(ID:pedaily)8月3日报道,今年下半年,总计超千亿资金中的资金将落户苏州,其中包括多只基金规模超百亿。 基金。 “欢迎大家常来苏州,深入了解苏州。 ”苏州市委常委、市长副手顾海东在7月30日举办的“中国基金中基金50人论坛”上发出邀请。 近年来,苏州已成为PE/

    06-18

  • 比亚迪:6月累计产量51,152辆,同比增长60.12%

    比亚迪:6月累计产量51,152辆,同比增长60.12%

    比亚迪:6月累计产量2辆,今年累计产量253,900辆,同比增长60.12%; 6月共销售5辆,今年累计销量2467万辆,同比增长55.51%。

    06-18

  • BNEF 的净零目标要求到 2050 年每年新增 455GW 太阳能装机容量 20TW

    BNEF 的净零目标要求到 2050 年每年新增 455GW 太阳能装机容量 20TW

    彭博新能源财经 (BNEF) 的最新分析发现,为了到 2020 年实现净零目标,至少需要新增 1GW 太阳能产能到本十年末,每年都需要光伏发电容量。 该研究咨询公司发布了年度《新能源展望》报告,该报告将全球向净零排放状态的过渡分为三个具体轨迹,即“绿色”、“红色”和“灰色”

    06-08

  • 徐旭初:数字乡村建设成为乡村振兴新引擎

    徐旭初:数字乡村建设成为乡村振兴新引擎

    “数字乡村建设发展将成为引领乡村振兴的现实热点,也将成为县域经济跨越式发展的强大力量。 ” 6月9日,浙江大学中国农民合作组织研究中心、杭州电子科技大学法学院院长教授、博士生导师徐旭初在“国家数字生态系统创新发展峰会”上发表主旨演讲。 浙江大学、杭州电子科技大

    06-18

  • 海外智能在线客服在跨境海外企业中的应用

    海外智能在线客服在跨境海外企业中的应用

    .wp-block-column h3{margin-left:0} 1.引言随着全球化的加速和电子商务的蓬勃发展,越来越多的更多企业开始拓展海外市场,跨境海外扩张已成趋势。 然而,企业在走出去的过程中,面临着语言、文化、时差等各种挑战。 如何提供高效、优质的客户服务成为关键。 海外智能在线客服

    06-18

  • 一季度共有19家ST公司获得重要股东增持

    一季度共有19家ST公司获得重要股东增持

    今年一季度共有19家ST公司获得重要股东增持。 截至4月9日收盘,已有8家公司股价收于2元以下,其中*ST信谊、*ST宏图股价跌破1.5元。 从增持金额来看,超过一半的公司(11家)花费在1000万元以上,ST庞大、ST洛克甚至收到股东数亿元增持。 从增持金额来看,原国内汽车经销商龙头

    06-18

  • 三星Note 10+发布:产品很惊艳,5G真香,但价格太感人

    三星Note 10+发布:产品很惊艳,5G真香,但价格太感人

    进入2019年,三星智能手机业务出现了市场格局严重失衡的情况。 一方面,三星仍然是全球最大的智能手机制造商,市场份额高达22.7%(根据IDC最新数据);另一方面,在全球最大的智能手机市场——中国市场,三星的存在感微乎其微,市场份额仅为0.7%(根据Strategy Analytics公布

    06-18

  • 景林资产大幅减持拼多多,拼多多榜首位置下滑

    景林资产大幅减持拼多多,拼多多榜首位置下滑

    去年四季度刚刚将拼多多持股翻倍至最高持股的景林,果断将持股过半的拼多多一季度收益翻倍。 减持。 一季报显示,景林资产在美股减持最多的企业之一,拼多多一季度减持近万股至8000股。 截至本季度末,其市值为3.5亿美元。 拼多多也从景林资产第一名的位置上跌落。 达到第二大

    06-18